論文の概要: Phone-to-audio alignment without text: A Semi-supervised Approach
- arxiv url: http://arxiv.org/abs/2110.03876v1
- Date: Fri, 8 Oct 2021 03:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 02:11:20.425463
- Title: Phone-to-audio alignment without text: A Semi-supervised Approach
- Title(参考訳): テキストのない電話音声のアライメント:半教師ありアプローチ
- Authors: Jian Zhu, Cong Zhang, David Jurgens
- Abstract要約: テキストに依存しない2つのWav2Vec2ベースのモデルを導入する。
半教師付きモデルであるWav2Vec2-FSは、コントラスト学習とフォワード和損失によって直接音声のアライメントを学習する。
他のモデルであるWav2Vec2-FCは、強制整列ラベルに基づいて訓練されたフレーム分類モデルである。
- 参考スコア(独自算出の注目度): 8.751201799254323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of phone-to-audio alignment has many applications in speech
research. Here we introduce two Wav2Vec2-based models for both text-dependent
and text-independent phone-to-audio alignment. The proposed Wav2Vec2-FS, a
semi-supervised model, directly learns phone-to-audio alignment through
contrastive learning and a forward sum loss, and can be coupled with a
pretrained phone recognizer to achieve text-independent alignment. The other
model, Wav2Vec2-FC, is a frame classification model trained on forced aligned
labels that can both perform forced alignment and text-independent
segmentation. Evaluation results suggest that both proposed methods, even when
transcriptions are not available, generate highly close results to existing
forced alignment tools. Our work presents a neural pipeline of fully automated
phone-to-audio alignment. Code and pretrained models are available at
https://github.com/lingjzhu/charsiu.
- Abstract(参考訳): 電話と音声のアライメントのタスクは、音声研究に多くの応用がある。
本稿では,テキストに依存しない2つのWav2Vec2ベースのモデルを紹介する。
提案する半教師付きモデルwav2vec2-fsは、コントラスト学習と前方和損失により直接音声間アライメントを学習し、事前学習された電話認識器と結合してテキスト非依存アライメントを実現する。
他のモデルであるWav2Vec2-FCは、強制アライメントとテキスト非依存セグメンテーションの両方を実行することができる強制アライメントラベルに基づいて訓練されたフレーム分類モデルである。
評価の結果, 提案手法は, 転写が利用できない場合でも, 既存の強制アライメントツールと非常に密接な結果が得られることが示唆された。
我々の研究は、完全に自動化された電話と音声のアライメントのニューラルパイプラインを提示する。
コードと事前トレーニングされたモデルはhttps://github.com/lingjzhu/charsiu.comから利用できる。
関連論文リスト
- Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval [3.5570874721859016]
本稿では,複数の検索モデルを推定文を使わずに訓練する2段階の訓練手法を提案する。
第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。
提案手法をClosoV2とAudioCapsベンチマークで評価し, 自己蒸留条件が制限された場合でも, 検索性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-21T14:10:58Z) - The Mason-Alberta Phonetic Segmenter: A forced alignment system based on
deep neural networks and interpolation [0.8594140167290096]
我々は,新しいニューラルネットワークに基づく強制アライメントシステム,Mason-Alberta Phonetic Segmenter(MAPS)について述べる。
MAPSアライメントは、強制アライメントシステムのために私たちが追求する2つの改善のためのテストベッドとして機能します。
論文 参考訳(メタデータ) (2023-10-24T00:43:54Z) - Deep Visual Forced Alignment: Learning to Align Transcription with
Talking Face Video [32.65865343643458]
強制アライメント技術は、入力された音声音声がノイズ破壊されたり、アクセスできない場合に、アライメントに失敗する可能性がある。
ディープ・ビジュアル・フォースド・アライメント(DVFA)は、音声音声にアクセスすることなく、入力された書き起こしを音声音声に合わせることができる。
論文 参考訳(メタデータ) (2023-02-27T02:59:50Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。