論文の概要: DQ-Data2vec: Decoupling Quantization for Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.13497v1
- Date: Thu, 23 Jan 2025 09:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:29.087978
- Title: DQ-Data2vec: Decoupling Quantization for Multilingual Speech Recognition
- Title(参考訳): DQ-Data2vec:多言語音声認識のためのデカップリング量子化
- Authors: Qijie Shao, Linhao Dong, Kun Wei, Sining Sun, Lei Xie,
- Abstract要約: Data2vecは自己教師型学習(SSL)アプローチであり、教師が学習するアーキテクチャを用いて、マスク付き予測による文脈表現学習を行う。
我々は,データ2vecバックボーンと2つの改良されたオンラインK平均量子化器を含む多言語ASRのためのデカップリング量子化ベースData2vec(DQ-Data2vec)を提案する。
DQ-Data2vecは、Data2vecやUniData2vecと比較して、音素誤り率(PER)が9.51%、単語誤り率(WER)が11.58%の相対的な削減を実現している。
- 参考スコア(独自算出の注目度): 26.129088764394588
- License:
- Abstract: Data2vec is a self-supervised learning (SSL) approach that employs a teacher-student architecture for contextual representation learning via masked prediction, demonstrating remarkable performance in monolingual ASR. Previous studies have revealed that data2vec's shallow layers capture speaker and language information, middle layers encode phoneme and word features, while deep layers are responsible for reconstruction. Language and phoneme features are crucial for multilingual ASR. However, data2vec's masked representation generation relies on multi-layer averaging, inevitably coupling these features. To address this limitation, we propose a decoupling quantization based data2vec (DQ-Data2vec) for multilingual ASR, which includes a data2vec backbone and two improved online K-means quantizers. Our core idea is using the K-means quantizer with specified cluster numbers to decouple language and phoneme information for masked prediction. Specifically, in the language quantization, considering that the number of languages is significantly different from other irrelevant features (e.g., speakers), we assign the cluster number to match the number of languages, explicitly decoupling shallow layers' language-related information from irrelevant features. This strategy is also applied to decoupling middle layers' phoneme and word features. In a self-supervised scenario, experiments on the CommonVoice dataset demonstrate that DQ-Data2vec achieves a relative reduction of 9.51% in phoneme error rate (PER) and 11.58% in word error rate (WER) compared to data2vec and UniData2vec. Moreover, in a weakly-supervised scenario incorporating language labels and high-resource language text labels, the relative reduction is 18.09% and 1.55%, respectively.
- Abstract(参考訳): Data2vecは自己教師型学習(SSL)アプローチであり、教師が学習するアーキテクチャをマスク付き予測による文脈表現学習に適用し、単言語ASRにおける顕著な性能を示す。
これまでの研究では、Data2vecの浅い層が話者と言語情報をキャプチャし、中間層が音素と単語の特徴をエンコードし、深い層が再構築に責任があることが示されている。
言語と音素の機能は多言語ASRにとって不可欠である。
しかし、Data2vecのマスク付き表現生成は、これらの特徴を必然的に結合する多層平均化に依存している。
この制限に対処するために、データ2vecバックボーンと2つの改善されたオンラインK平均量子化器を含む多言語ASRのためのデカップリング量子化ベースのData2vec(DQ-Data2vec)を提案する。
我々の中核となる考え方は、特定のクラスタ番号を持つK平均量子化器を用いて、マスキング予測のために言語と音素情報を分離することである。
具体的には、言語量子化において、言語数が他の無関係な特徴(例えば話者)と大きく異なることを考慮し、浅いレイヤの言語関連情報を無関係な特徴から明示的に切り離して、言語数に一致するようにクラスタ番号を割り当てる。
この戦略は、中間層の音素と単語の特徴を分離するためにも適用されます。
自己監督されたシナリオでは、CommonVoiceデータセットの実験により、DQ-Data2vecは、Data2vecとUniData2vecと比較して9.51%の音素誤り率(PER)と11.58%の単語誤り率(WER)の相対的な減少を実現している。
さらに、言語ラベルと高解像度の言語テキストラベルを取り入れた弱教師付きシナリオでは、相対的な減少率は18.09%と1.55%である。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - data2vec-aqc: Search for the right Teaching Assistant in the
Teacher-Student training setup [1.2031796234206138]
我々は、Data2vec-aqcと呼ばれる新しい自己教師付き学習(SSL)アルゴリズムを提案する。
我々の目標は、ラベル付きデータとラベル付きデータの両方が制限されたドメインにおける音声のSSLを改善することです。
論文 参考訳(メタデータ) (2022-11-02T16:29:59Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions [0.0]
本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。
また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
論文 参考訳(メタデータ) (2021-05-31T18:35:27Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。