Fugu-MT 論文翻訳(概要): Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

論文の概要: Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

arxiv url: http://arxiv.org/abs/2603.05231v1
Date: Thu, 05 Mar 2026 14:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.276597
Title: Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards
Title（参考訳）: 音声テキスト・セマンティック・リワードを用いたテスト時間強化学習によるASRロバストネス向上
Authors: Linghan Fang, Tianxin Xie, Li Liu,
Abstract要約: ASR-TRAは、因果介入に触発された新しいテストタイム強化適応フレームワークである。提案手法は,既存のTTAベースラインよりも低レイテンシを維持しながら高い精度を実現する。我々のアプローチは、現実の状況に挑戦する上で、ASRシステムをデプロイするための実用的で堅牢なソリューションを提供する。
参考スコア（独自算出の注目度）: 8.109014000578766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, Automatic Speech Recognition (ASR) systems (e.g., Whisper) have achieved remarkable accuracy improvements but remain highly sensitive to real-world unseen data (data with large distribution shifts), including noisy environments and diverse accents. To address this issue, test-time adaptation (TTA) has shown great potential in improving the model adaptability at inference time without ground-truth labels, and existing TTA methods often rely on pseudo-labeling or entropy minimization. However, by treating model confidence as a learning signal, these methods may reinforce high-confidence errors, leading to confirmation bias that undermines adaptation. To overcome these limitations, we present ASR-TRA, a novel Test-time Reinforcement Adaptation framework inspired by causal intervention. More precisely, our method introduces a learnable decoder prompt and utilizes temperature-controlled stochastic decoding to generate diverse transcription candidates. These are scored by a reward model that measures audio-text semantic alignment, and the resulting feedback is used to update both model and prompt parameters via reinforcement learning. Comprehensive experiments on LibriSpeech with synthetic noise and L2 Arctic accented English datasets demonstrate that our method achieves higher accuracy while maintaining lower latency than existing TTA baselines. Ablation studies further confirm the effectiveness of combining audio and language-based rewards, highlighting our method's enhanced stability and interpretability. Overall, our approach provides a practical and robust solution for deploying ASR systems in challenging real-world conditions.
Abstract（参考訳）: 近年,ASR(Automatic Speech Recognition)システム(例えばWhisper)の精度向上は目覚ましいが,ノイズの多い環境や多様なアクセントを含む実世界の未知データ(大きな分布シフトを持つデータ)に非常に敏感である。この問題に対処するために、テスト時間適応(TTA)は、基底構造ラベルなしで推論時にモデル適応性を改善する大きな可能性を示しており、既存のTTA手法は、しばしば擬似ラベルやエントロピーの最小化に依存している。しかし、モデル信頼度を学習信号として扱うことにより、これらの手法は高信頼度誤差を強化し、適応を損なう確証バイアスにつながる可能性がある。これらの制限を克服するために、我々は、因果的介入に触発された新しいテスト時強化適応フレームワークであるASR-TRAを提案する。より正確には、学習可能なデコーダプロンプトを導入し、温度制御された確率的デコードを用いて多様な転写候補を生成する。これらは、音声テキストのセマンティックアライメントを測定する報酬モデルによって評価され、結果として得られたフィードバックは、強化学習を通じてモデルとプロンプトパラメータの両方を更新するために使用される。合成雑音とL2北極アクセント付き英語データセットを用いたLibriSpeechの総合実験により,既存のTTAベースラインよりも低レイテンシを維持しつつ,高い精度を実現することができた。アブレーション研究は、音声と言語に基づく報酬を組み合わせることの有効性をさらに確認し、我々の手法の安定性と解釈可能性の向上を強調した。われわれのアプローチは、現実の状況に挑戦する上で、ASRシステムをデプロイするための実用的で堅牢なソリューションを提供する。

関連論文リスト

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
ASK: Adaptive Self-improving Knowledge Framework for Audio Text Retrieval [19.94287753279928]
オーディオテキスト検索(ATR)の主流パラダイムは、ミニバッチベースのコントラスト学習に依存している。 Gradient Locality Bottleneck(GLB)は、モデルがバッチ外の知識を活用することを構造的に防止する。 Representation-Drift Mismatch(Representation-Drift Mismatch、RDM)とは、静的知識ベースが進化するモデルと徐々に不一致になり、ガイダンスがノイズになる現象である。
論文参考訳（メタデータ） (2025-12-11T14:48:30Z)
Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。私たちのアプローチの中心は、強化学習と因果推論を統合することです。提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文参考訳（メタデータ） (2025-11-10T12:45:52Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。 18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文参考訳（メタデータ） (2025-06-10T02:50:20Z)
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。応答を話者対応音声合成により合成音声に変換する。マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文参考訳（メタデータ） (2025-06-04T15:42:53Z)
Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-15T03:22:03Z)
Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文参考訳（メタデータ） (2023-10-14T06:22:08Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。