論文の概要: Contrastive Learning-Based Audio to Lyrics Alignment for Multiple
Languages
- arxiv url: http://arxiv.org/abs/2306.07744v1
- Date: Tue, 13 Jun 2023 13:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:40:19.665555
- Title: Contrastive Learning-Based Audio to Lyrics Alignment for Multiple
Languages
- Title(参考訳): 複数の言語に対するコントラスト学習に基づく歌詞アライメント
- Authors: Simon Durand, Daniel Stoller, Sebastian Ewert
- Abstract要約: 最先端システムは、確立された音声認識ツールキットを再使用するか、エンドツーエンドのソリューションを設計するかのいずれかである。
本稿では、音声とテキストのドメインをリンクするクロスモーダルな埋め込みを導出するコントラスト学習手法を用いる。
このようにして、エンドツーエンドのトレーニングが簡単で、弱い注釈付きトレーニングデータを使用し、強力なテキストモデルを共同で学習し、アライメントに合わせて調整できる新しいシステムを得る。
- 参考スコア(独自算出の注目度): 10.42629447317569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lyrics alignment gained considerable attention in recent years.
State-of-the-art systems either re-use established speech recognition toolkits,
or design end-to-end solutions involving a Connectionist Temporal
Classification (CTC) loss. However, both approaches suffer from specific
weaknesses: toolkits are known for their complexity, and CTC systems use a loss
designed for transcription which can limit alignment accuracy. In this paper,
we use instead a contrastive learning procedure that derives cross-modal
embeddings linking the audio and text domains. This way, we obtain a novel
system that is simple to train end-to-end, can make use of weakly annotated
training data, jointly learns a powerful text model, and is tailored to
alignment. The system is not only the first to yield an average absolute error
below 0.2 seconds on the standard Jamendo dataset but it is also robust to
other languages, even when trained on English data only. Finally, we release
word-level alignments for the JamendoLyrics Multi-Lang dataset.
- Abstract(参考訳): 近年、歌詞のアライメントが注目を浴びている。
最先端システムは、確立された音声認識ツールキットを再使用するか、コネクショニスト時間分類(CTC)の損失を含むエンドツーエンドのソリューションを設計する。
ツールキットはその複雑さで知られており、ctcシステムはアライメントの精度を制限できる転写のために設計されたロスを使用している。
本稿では、音声とテキストのドメインをリンクするクロスモーダルな埋め込みを導出するコントラスト学習手法を用いる。
これにより,エンド・ツー・エンドの訓練が簡単で,弱い注釈付きトレーニングデータを利用して,強力なテキストモデルを共同学習し,アライメントに合わせた新しいシステムが得られる。
このシステムは、標準ジャメンドデータセットの0.2秒以下の平均絶対誤差を初めて生成するだけでなく、英語のデータのみをトレーニングしても、他の言語にも堅牢である。
最後に、JamendoLyrics Multi-Langデータセットのワードレベルアライメントをリリースする。
関連論文リスト
- TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文 参考訳(メタデータ) (2024-05-03T14:25:21Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Robust Neural Machine Translation: Modeling Orthographic and
Interpunctual Variation [3.3194866396158]
そこで本研究では,10種類の逆例を生成するための簡易な生成ノイズモデルを提案する。
ノイズの多いデータでテストすると、敵の例を使って訓練されたシステムは、クリーンなデータを翻訳するのと同様に、ほぼ同等に機能することを示す。
論文 参考訳(メタデータ) (2020-09-11T14:12:54Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。