Fugu-MT 論文翻訳(概要): Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems

論文の概要: Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems

arxiv url: http://arxiv.org/abs/2407.03645v2
Date: Fri, 12 Jul 2024 03:07:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 04:08:24.015076
Title: Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems
Title（参考訳）: 多言語ASRシステムの自己回帰デコーダの連続学習最適化
Authors: Chin Yuen Kwok, Jia Qi Yip, Eng Siong Chng,
Abstract要約: 継続学習(CL)は、事前学習されたデータの性能を維持しながら、新しいデータで訓練済みモデルを微調整する。自動回帰デコーダのMASRモデルにおける4つの最適化を提案する。 Common VoiceデータセットからWhisperを10の未確認言語に適応させる実験では、これらの最適化により、事前訓練された言語の平均単語誤り率(AWER)が、Experience Replayと比較して14.2%から12.4%に低下することが示されている。
参考スコア（独自算出の注目度）: 20.07672057717825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual Learning (CL) involves fine-tuning pre-trained models with new data while maintaining the performance on the pre-trained data. This is particularly relevant for expanding multilingual ASR (MASR) capabilities. However, existing CL methods, mainly designed for computer vision and reinforcement learning tasks, often yield sub-optimal results when directly applied to MASR. We hypothesise that this is because CL of the auto-regressive decoder in the MASR model is difficult. To verify this, we propose four optimizations on the decoder. They include decoder-layer gradient surgery, freezing unused token embeddings, suppressing output of newly added tokens, and learning rate re-scaling. Our experiments on adapting Whisper to 10 unseen languages from the Common Voice dataset demonstrate that these optimizations reduce the Average Word Error Rate (AWER) of pretrained languages from 14.2% to 12.4% compared with Experience Replay, without compromising the AWER of new languages.
Abstract（参考訳）: 継続学習(CL)は、事前学習されたデータの性能を維持しながら、新しいデータで訓練済みモデルを微調整する。これは多言語ASR(MASR)の機能拡張に特に関係している。しかし、コンピュータビジョンと強化学習タスクを主目的とする既存のCL手法では、MASRに直接適用した場合、しばしば準最適結果が得られる。これはMASRモデルにおける自己回帰デコーダのCLが難しいためである。これを検証するために,デコーダに4つの最適化を提案する。その中には、デコーダ層勾配手術、未使用のトークン埋め込みの凍結、新たに追加されたトークンの出力の抑制、学習率の再スケーリングが含まれる。 Common VoiceデータセットからWhisperを10の未確認言語に適用する実験により、これらの最適化により、新しい言語のAWERを妥協することなく、事前訓練された言語の平均単語誤り率(AWER)が14.2%から12.4%に低下することを示した。

関連論文リスト

CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning [61.359141900956125]
大言語モデル(LLM)は、ゼロショット多言語機械翻訳(MT)において競合性能を示した。いくつかのフォローアップ作業は、好みの最適化を通じてMTのパフォーマンスをさらに改善するが、主に探索されていない重要な側面、すなわちトレーニング中にデータサンプルが与えられる順序を残している。 MT性能を向上させるために,カリキュラム学習を様々な最先端の選好最適化アルゴリズムに統合することで,この問題に対処する。
論文参考訳（メタデータ） (2026-01-09T15:34:31Z)
Improving Code-Switching Speech Recognition with TTS Data Augmentation [58.34842693152991]
本稿では,この不足に対処する効果的なデータ拡張手法として,多言語テキスト音声(TTS)モデルについて検討する。我々は、SEAMEデータセット上の多言語CosyVoice2 TTSモデルを微調整し、中国語と英語の合成音声を生成する。
論文参考訳（メタデータ） (2026-01-02T10:11:51Z)
BEST-RQ-Based Self-Supervised Learning for Whisper Domain Adaptation [9.90081460759926]
未ラベルデータを用いてWhisperのエンコーダを適応させる新しいフレームワークであるBEARDを提案する。従来の自己教師型学習法とは異なり、BEARDはBEST-RQ目標と凍結教師エンコーダからの知識蒸留を独自に組み合わせ、エンコーダと事前訓練されたデコーダとの相補性を確保する。実験では,非ネイティブ音声,雑音,特殊フレーズを特徴とする,ATC(Air Traffic Control)通信ドメインのATCO2コーパスに着目した。
論文参考訳（メタデータ） (2025-10-28T16:01:24Z)
Enhancing Few-shot Keyword Spotting Performance through Pre-Trained Self-supervised Speech Models [3.25590215530292]
キーワードスポッティングは、バッテリー駆動エッジデバイスに対するハンズフリーインタラクションを可能にする上で重要な役割を果たす。本研究では,自己指導型学習モデルを用いて,ロバストな特徴抽出,次元縮小,知識蒸留を行う訓練手法を提案する。提案手法は,Multilingual Spoken Words Corpus (MSWC) とGoogle Speech Commands (GSC) データセットの英語部分に対して評価を行った。
論文参考訳（メタデータ） (2025-06-21T11:39:11Z)
Continual Learning with Embedding Layer Surgery and Task-wise Beam Search using Whisper [20.07672057717825]
現在のASRモデルは世界の言語の一部しかサポートしていない。新しい言語ごとに異なるトークン埋め込みのコピーを作成できる埋め込み層手術を提案する。その結果,経験リプレイと比較して,事前学習した言語の平均 WER (AWER) は14.2% から11.9% に減少した。
論文参考訳（メタデータ） (2025-01-14T06:33:40Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
InsCL: A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions [29.682289142922752]
InsCLは、Wasserstein Distanceによって計算されたタスク類似性に基づいて、以前のデータを動的に再生する。 InsCLはRandom Replayと比較して3.0 Relative Gain、No Replayに比べて27.96 Relative Gainのパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-03-18T03:10:36Z)
Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文参考訳（メタデータ） (2023-11-15T14:15:30Z)
Generative error correction for code-switching speech recognition using large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文参考訳（メタデータ） (2023-10-17T14:49:48Z)
Federated Representation Learning for Automatic Speech Recognition [20.641076546330986]
Federated Learning(FL)はプライバシ保護のパラダイムであり、エッジデバイスがデータを共有せずに協調的に学習できるようにする。我々は、データのプライバシー制約に配慮した自動音声認識のための表現を学習するために、自己教師付き学習(SSL)とFLをまとめる。 FL における事前学習型 ASR エンコーダは,中心的な事前学習モデルと同様に動作し,事前学習に比べて 12-15% (WER) の改善が得られた。
論文参考訳（メタデータ） (2023-08-03T20:08:23Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T22:26:57Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Low Resource German ASR with Untranscribed Data Spoken by Non-native Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文参考訳（メタデータ） (2021-06-18T07:36:26Z)
Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文参考訳（メタデータ） (2020-10-23T18:57:47Z)
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文参考訳（メタデータ） (2020-05-14T17:24:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。