論文の概要: The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR$\rightarrow$LLM Pipelines?
- arxiv url: http://arxiv.org/abs/2602.17598v1
- Date: Thu, 19 Feb 2026 18:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.30169
- Title: The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR$\rightarrow$LLM Pipelines?
- Title(参考訳): カスケード等価仮説:LLMはASR$\rightarrow$LLMパイプラインのように働くのか?
- Authors: Jayadev Billa,
- Abstract要約: 現在のLLMは、スクリプティングから解けるタスクに対して暗黙のASRを実行する。
4つのLLMと6つのタスクにまたがるマッチングバックボーンテストによりこれを示す。
ほとんどの使用例では、現在のLLMは高価なカスケードであり、ノイズの下では、より悪いものとなり、0dBで最大7.6%のクリーンコンディションのアドバンテージが逆転する。
- 参考スコア(独自算出の注目度): 1.5567685129899713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current speech LLMs largely perform implicit ASR: on tasks solvable from a transcript, they are behaviorally and mechanistically equivalent to simple Whisper$\to$LLM cascades. We show this through matched-backbone testing across four speech LLMs and six tasks, controlling for the LLM backbone for the first time. Ultravox is statistically indistinguishable from its matched cascade ($κ{=}0.93$); logit lens reveals literal text emerging in hidden states; LEACE concept erasure confirms text representations are causally necessary in both architectures tested, collapsing accuracy to near-zero. Qwen2-Audio genuinely diverges, revealing cascade equivalence is architecture-dependent, not universal. For most deployed use cases, current speech LLMs are expensive cascades, and under noise, they are worse ones, with clean-condition advantages reversing by up to 7.6% at 0 dB.
- Abstract(参考訳): 現在のLLMは暗黙のASRを主に実行しており、スクリプティングから解けるタスクでは、単純なWhisper$\to$LLMカスケードと振舞い、機械的に等価である。
4つのLLMと6つのタスクにまたがってマッチングバックボーンテストを行い、初めてLLMのバックボーンを制御した。
Ultravoxは、マッチしたカスケード(κ{=}0.93$)と統計的に区別できない; ロジットレンズは、隠れた状態に現れるリテラルテキストを明らかにする; LEACEの概念消去は、テストされた両方のアーキテクチャにおいて、テキスト表現が慎重に必要であり、精度がほぼゼロに近いことを確認する。
Qwen2-Audioは真に分岐し、カスケード同値性はアーキテクチャに依存し、普遍的ではないことを明らかにした。
ほとんどの使用例では、現在のLLMは高価なカスケードであり、ノイズの下では、より悪いものとなり、0dBで最大7.6%のクリーンコンディションのアドバンテージが逆転する。
関連論文リスト
- Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial [13.016574005932311]
16億人の英語話者の80%以上が標準アメリカ英語を使用していない。
我々は,多言語対話データを生成するための最初の大規模フレームワークである$textbfMDial$を紹介した。
論文 参考訳(メタデータ) (2026-01-30T12:08:08Z) - Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs [20.25147816779636]
SpeechLLMは、従来の転写ベースのパイプラインをバイパスして、音声言語を直接翻訳することを目的としている。
分析対象は16のベンチマーク,13の言語ペア,9つの困難な条件である。
現在のSpeechLLMは、選択した設定のカスケードにのみ対応しているのに対して、カスケードシステムは全体として最も信頼性が高い。
論文 参考訳(メタデータ) (2025-12-18T10:21:14Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Robustness of Large Language Models to Perturbations in Text [2.2734015467359217]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。