論文の概要: From Oracle to Noisy Context: Mitigating Contextual Exposure Bias in Speech-LLMs
- arxiv url: http://arxiv.org/abs/2603.24034v1
- Date: Wed, 25 Mar 2026 07:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.189645
- Title: From Oracle to Noisy Context: Mitigating Contextual Exposure Bias in Speech-LLMs
- Title(参考訳): Oracle から Noisy コンテキストへ: 音声-LLM におけるコンテキスト露光バイアスの緩和
- Authors: Xiaoyong Guo, Nanjie Li, Zijie Zeng, Kai Wang, Hao Huang, Haihua Xu, Wei Shi,
- Abstract要約: 本研究では,現実的な歴史の下での堅牢性向上のための統一的なトレーニングフレームワークを提案する。
TED-Lium 3 と 0-shot LibriSpeech の実験は、予測履歴復号化の下で一貫した利得を示した。
- 参考スコア(独自算出の注目度): 10.607206326392085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual automatic speech recognition (ASR) with Speech-LLMs is typically trained with oracle conversation history, but relies on error-prone history at inference, causing a train-test mismatch in the context channel that we term contextual exposure bias. We propose a unified training framework to improve robustness under realistic histories: (i) Teacher Error Knowledge by using Whisper large-v3 hypotheses as training-time history, (ii) Context Dropout to regularize over-reliance on history, and (iii) Direct Preference Optimization (DPO) on curated failure cases. Experiments on TED-LIUM 3 (in-domain) and zero-shot LibriSpeech (out-of-domain) show consistent gains under predicted-history decoding. With a two-utterance history as context, SFT with Whisper hypotheses reduce WER from 5.59% (oracle-history training) to 5.47%, and DPO further improves to 5.17%. Under irrelevant-context attacks, DPO yields the smallest degradation (5.17% -> 5.63%), indicating improved robustness to misleading context. Our code and models are published on https://github.com/XYGuo1996/Contextual_Speech_LLMs.
- Abstract(参考訳): 音声-LLMを用いた文脈自動音声認識(ASR)は、通常、オラクルの会話履歴で訓練されるが、推論時にエラーが発生しやすい歴史に依存しており、文脈的露出バイアス(contextual exposure bias)と呼ぶコンテキストチャネルにおける列車試験ミスマッチを引き起こす。
我々は、現実的な歴史の下で堅牢性を改善するための統一的なトレーニングフレームワークを提案する。
(i)Whisper大V3仮説を訓練時間履歴として用いた教師の誤り知識
(二 歴史の過度な信頼を正すためのコンテキストドロップアウト及び
三 故障事例の直接選好最適化(DPO)
TED-Lium 3(ドメイン内)とゼロショットLibriSpeech(ドメイン外)の実験は、予測履歴復号化の下で一貫した利得を示す。
2つの発話履歴を文脈として、Whisper仮説によるSFTは、WERを5.59%から5.47%に減らし、DPOはさらに5.17%に改善した。
無関係なコンテキスト攻撃の下では、DPOは最小の劣化(5.17% -> 5.63%)をもたらす。
私たちのコードとモデルはhttps://github.com/XYGuo1996/Contextual_Speech_LLMsで公開されています。
関連論文リスト
- Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文 参考訳(メタデータ) (2025-03-11T18:26:10Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - DEPTH: Discourse Education through Pre-Training Hierarchically [33.89893399779713]
DEPTHは、談話指向の事前学習目標を用いて文の潜在表現を学習するエンコーダ・デコーダモデルである。
我々のアプローチは、他の自然言語理解能力(NLU)に最小限の影響を与えながら、T5の談話能力を拡張する。
論文 参考訳(メタデータ) (2024-05-13T14:35:30Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。