論文の概要: SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR
- arxiv url: http://arxiv.org/abs/2506.11121v1
- Date: Tue, 10 Jun 2025 02:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.483516
- Title: SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR
- Title(参考訳): SUTA-LM:ロバストASRのためのテスト時間適応と言語モデル再構成
- Authors: Wei-Ping Huang, Guan-Ting Lin, Hung-yi Lee,
- Abstract要約: テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 58.31068047426522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite progress in end-to-end ASR, real-world domain mismatches still cause performance drops, which Test-Time Adaptation (TTA) aims to mitigate by adjusting models during inference. Recent work explores combining TTA with external language models, using techniques like beam search rescoring or generative error correction. In this work, we identify a previously overlooked challenge: TTA can interfere with language model rescoring, revealing the nontrivial nature of effectively combining the two methods. Based on this insight, we propose SUTA-LM, a simple yet effective extension of SUTA, an entropy-minimization-based TTA approach, with language model rescoring. SUTA-LM first applies a controlled adaptation process guided by an auto-step selection mechanism leveraging both acoustic and linguistic information, followed by language model rescoring to refine the outputs. Experiments on 18 diverse ASR datasets show that SUTA-LM achieves robust results across a wide range of domains.
- Abstract(参考訳): エンドツーエンドのASRの進歩にもかかわらず、実世界のドメインミスマッチは依然としてパフォーマンス低下を引き起こし、テスト時間適応(TTA)は推論中にモデルを調整することで緩和する。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
TTAは言語モデルの再構成を妨害し、この2つの手法を効果的に組み合わせることの非自明な性質を明らかにする。
この知見に基づいて,エントロピー最小化に基づくTTAアプローチであるSUTA-LMを提案する。
SUTA-LMはまず、音響情報と言語情報の両方を活用する自動ステップ選択機構によって誘導される制御された適応プロセスを適用し、次に言語モデル再構成を行い出力を洗練させる。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
関連論文リスト
- New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition [43.19328760778868]
TTA(Test-Time Adaptation)は、ドメインシフト問題に対する重要な解決策として登場した。
言語インフォームドテスト時間適応(Language Informed Test-Time Adaptation, LI-TTA)を提案する。
論文 参考訳(メタデータ) (2024-08-11T13:19:27Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。