論文の概要: Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition
- arxiv url: http://arxiv.org/abs/2604.21276v1
- Date: Thu, 23 Apr 2026 04:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.305103
- Title: Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition
- Title(参考訳): LLMデコーダは公平に聴くか? 音声認識における言語モデルがどのように形状バイアスを優先するかのベンチマーク
- Authors: Srishti Ginjala, Eric Fosler-Lussier, Christopher W. Myers, Srinivasan Parthasarathy,
- Abstract要約: 事前訓練された大規模言語モデルは、音声認識におけるタスク固有のデコーダを置き換える。
彼らのテキスト由来の先行性は、認識をより公平にするか、あるいは人口統計グループに偏っているか?
我々は,3世代にわたる9つのモデルを5つの人口動態軸にわたる約43,000発の発話で評価した。
- 参考スコア(独自算出の注目度): 9.131439623985028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As pretrained large language models replace task-specific decoders in speech recognition, a critical question arises: do their text-derived priors make recognition fairer or more biased across demographic groups? We evaluate nine models spanning three architectural generations (CTC with no language model, encoder-decoder with an implicit LM, and LLM-based with an explicit pretrained decoder) on about 43,000 utterances across five demographic axes (ethnicity, accent, gender, age, first language) using Common Voice 24 and Meta's Fair-Speech, a controlled-prompt dataset that eliminates vocabulary confounds. On clean audio, three findings challenge assumptions: LLM decoders do not amplify racial bias (Granite-8B has the best ethnicity fairness, max/min WER = 2.28); Whisper exhibits pathological hallucination on Indian-accented speech with a non-monotonic insertion-rate spike to 9.62% at large-v3; and audio compression predicts accent fairness more than LLM scale. We then stress-test these findings under 12 acoustic degradation conditions (noise, reverberation, silence injection, chunk masking) across both datasets, totaling 216 inference runs. Severe degradation paradoxically compresses fairness gaps as all groups converge to high WER, but silence injection amplifies Whisper's accent bias up to 4.64x by triggering demographic-selective hallucination. Under masking, Whisper enters catastrophic repetition loops (86% of 51,797 insertions) while explicit-LLM decoders produce 38x fewer insertions with near-zero repetition; high-compression audio encoding (Q-former) reintroduces repetition pathology even in LLM decoders. These results suggest that audio encoder design, not LLM scaling, is the primary lever for equitable and robust speech recognition.
- Abstract(参考訳): 事前訓練された大きな言語モデルは、音声認識におけるタスク固有のデコーダを置き換えるため、重要な問題が発生する。
言語モデルを持たないCTC,暗黙のLMを用いたエンコーダデコーダ,LLMに基づく9つのモデルについて,5つの階層軸(民族性,アクセント,性別,年齢,第1言語)で約43,000発の発話を共通音声24とメタのFair-Speechを用いて評価した。
LLMデコーダは人種的偏見を増幅しない(Granite-8Bは最高の民族的公平度を持ち、max/min WER = 2.28)。
次に, 両データセットの音響劣化条件(ノイズ, 残響, サイレントインジェクション, チャンクマスキング)下でのストレステストを行い, 合計216回の推測を行った。
急激な劣化は、全ての群が高いWERに収束するにつれて、フェアネスギャップをパラドックス的に圧縮するが、サイレントインジェクションはウィスパーのアクセントバイアスを4.64倍に増幅する。
マスク下では、Whisperは破滅的な反復ループ(51,797挿入の86%)に入り、明示的なLLMデコーダは38倍少ない挿入をほぼゼロ繰り返しで生成し、高圧縮オーディオ符号化(Q-former)はLLMデコーダでも繰り返し病理を再導入する。
これらの結果は、LLMスケーリングではなくオーディオエンコーダ設計が、公平でロバストな音声認識のための主要なレバーであることを示唆している。
関連論文リスト
- How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation [97.0235251827591]
大規模言語モデル (LLM) は,Large Audio Language Models (LALM) の知識バックボーンとして広く利用されている。
テキストのみの事前学習によって符号化される聴覚知識の量と、それが下流のパフォーマンスに与える影響について検討する。
その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。
論文 参考訳(メタデータ) (2026-03-19T17:50:07Z) - CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching [31.584937435966253]
我々はCS3-Bench(Code-Switching Speech-to-Speech Benchmark)を提案する。
7つの主流モデルに関する実験は、知識集約的な質問応答の相対的なパフォーマンス低下を66%まで示している。
提案手法は, 知識の精度を25.14%から46.13%に改善し, オープンエンド理解率を64.5%から86.5%に改善し, 第二言語における発音誤りを大幅に低減する。
論文 参考訳(メタデータ) (2025-10-09T07:34:23Z) - Backdoor Attacks Against Speech Language Models [63.07317091368079]
本研究は,音声認識モデルに対する音声バックドア攻撃に関する最初の体系的研究である。
4つの音声エンコーダと3つのデータセットにまたがってその効果を実証し、4つのタスクをカバーした。
汚染された事前訓練エンコーダの脅威を軽減できる微調整型防御法を提案する。
論文 参考訳(メタデータ) (2025-10-01T17:45:04Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding [54.82619273983179]
LALM(Large Audio-Language Models)は、オーディオに提示されるものを幻覚させる。
LALMの幻覚を軽減するためにオーディオ・アウェア・デコーディング(AAD)を導入する。
AADはコントラストデコーディングを使用して、トークン予測ログとオーディオコンテキストの有無を比較します。
論文 参考訳(メタデータ) (2025-06-08T17:36:50Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - The Interspeech Zero Resource Speech Challenge 2021: Spoken language
modelling [19.525392906001624]
本稿では,テキストやラベルを使わずに,音声から直接言語モデルを学ぶよう参加者に求めるゼロリソース音声チャレンジ2021を紹介する。
課題はLibri-lightデータセットに基づいており、関連するテキストなしで英語のオーディオブックから最大60k時間のオーディオを提供します。
論文 参考訳(メタデータ) (2021-04-29T23:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。