論文の概要: Language-Universal Adapter Learning with Knowledge Distillation for
End-to-End Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2303.01249v1
- Date: Tue, 28 Feb 2023 14:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:20:21.527191
- Title: Language-Universal Adapter Learning with Knowledge Distillation for
End-to-End Multilingual Speech Recognition
- Title(参考訳): エンド・ツー・エンド多言語音声認識のための知識蒸留を用いた言語共通アダプタ学習
- Authors: Zhijie Shen, Wu Guo, Bin Gu
- Abstract要約: 本稿では,エンドツーエンドの多言語自動音声認識のための事前学習モデルに基づく言語・ユニバーサル適応学習フレームワークを提案する。
オンライン知識蒸留は、言語固有の特徴と普遍的な特徴の両方を学習するために使用される。
従来の多言語モデルと比較して、3.3%の絶対誤差率削減が達成されている。
- 参考スコア(独自算出の注目度): 28.416831396722106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a language-universal adapter learning framework
based on a pre-trained model for end-to-end multilingual automatic speech
recognition (ASR). For acoustic modeling, the wav2vec 2.0 pre-trained model is
fine-tuned by inserting language-specific and language-universal adapters. An
online knowledge distillation is then used to enable the language-universal
adapters to learn both language-specific and universal features. The linguistic
information confusion is also reduced by leveraging language identifiers
(LIDs). With LIDs we perform a position-wise modification on the multi-head
attention outputs. In the inference procedure, the language-specific adapters
are removed while the language-universal adapters are kept activated. The
proposed method improves the recognition accuracy and addresses the linear
increase of the number of adapters' parameters with the number of languages in
common multilingual ASR systems. Experiments on the BABEL dataset confirm the
effectiveness of the proposed framework. Compared to the conventional
multilingual model, a 3.3% absolute error rate reduction is achieved. The code
is available at: https://github.com/shen9712/UniversalAdapterLearning.
- Abstract(参考訳): 本稿では,エンドツーエンドの多言語自動音声認識(ASR)のための事前学習モデルに基づく言語大学用アダプタ学習フレームワークを提案する。
音響モデリングでは、wav2vec 2.0事前学習されたモデルは、言語固有および言語共通アダプタを挿入することで微調整される。
オンライン知識蒸留は、言語固有の特徴と普遍的な特徴の両方を学習するために使用される。
また、言語識別子(LID)を活用することにより、言語情報の混乱も軽減される。
LIDでは、マルチヘッドアテンション出力の位置ワイドな修正を行う。
推論手順では、言語固有のアダプタは削除され、言語共通アダプタはアクティベートされる。
提案手法は、認識精度を改善し、共通多言語ASRシステムにおける言語数とアダプタパラメータ数の線形増加に対処する。
BABELデータセットの実験により,提案フレームワークの有効性が確認された。
従来の多言語モデルと比較すると、3.3%の絶対誤差率削減を達成している。
コードは、https://github.com/shen9712/UniversalAdapterLearningで入手できる。
関連論文リスト
- The Impact of Language Adapters in Cross-Lingual Transfer for NLU [0.8702432681310401]
2つの多言語モデルと3つの多言語データセットを用いた詳細なアブレーション研究において、ターゲット言語アダプタを含めることの効果について検討する。
本結果から,タスク,言語,モデル間でターゲット言語アダプタの効果は相容れないことが示唆された。
学習後の言語アダプタの除去は、弱い負の効果しか示さず、言語アダプタが予測に強い影響を与えていないことを示している。
論文 参考訳(メタデータ) (2024-01-31T20:07:43Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Multilingual Detection of Check-Worthy Claims using World Languages and
Adapter Fusion [12.269362823116225]
非世界の言語に対する資源不足とモデル学習コストは、多言語チェックの安全性検出をサポートするモデルを作成する上で大きな課題である。
本稿では,複数の言語でグローバルに出現するクレームを検出するために,アダプティブ融合と組み合わさった世界言語サブセットのクロストレーニングアダプタを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:50:08Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Efficient Test Time Adapter Ensembling for Low-resource Language
Varieties [115.12997212870962]
多言語事前学習モデルの言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。
直感的な解法は、新しい言語の種類に関連言語アダプタを使用することであるが、この解が準最適性能をもたらすことを観察する。
本稿では,新しいアダプタを訓練することなく,未知言語への言語アダプタの堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-09-10T13:44:46Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z) - Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual
Speech Recognition [58.849768879796905]
エンドツーエンドの多言語音声認識のためのトランスフォーマーベースマルチタスク学習フレームワークであるAdapt-and-Adjust (A2)を提案する。
A2フレームワークは,(1) 訓練済み多言語言語モデル (mBERT) を利用して低リソース言語の性能を向上させる,(2) 言語固有の適応と言語に依存しない2つのアダプタを最小限の追加パラメータで提案する,(3) クラス不均衡を克服する,という3つの手法で解決する。
論文 参考訳(メタデータ) (2020-12-03T03:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。