論文の概要: Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs
- arxiv url: http://arxiv.org/abs/2603.01502v1
- Date: Mon, 02 Mar 2026 06:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.714464
- Title: Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs
- Title(参考訳): モーダリティギャップの解剖:エンド・ツー・エンド音声LLMの内部状態の分離
- Authors: Ming-Hao Hsu, Xueyao Zhang, Xiaohai Tian, Jun Zhang, Zhizheng Wu,
- Abstract要約: 音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
- 参考スコア(独自算出の注目度): 15.914430317382077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Speech-Language Models have significantly bridged the gap between acoustic signals and linguistic understanding. However, a persistent performance disparity remains in speech-based input tasks compared to direct text inference. In this paper, we investigate the dynamic roots of this modality gap beyond static geometric alignment, analyzing how speech and text representations evolve layer-by-layer. We evaluate four open-weight end-to-end models on SpeechMMLU and VoiceBench BBH. Using cross-layer CKA analysis with speech-text token alignment, we find that speech representations exhibit a broad cross-layer alignment band, attributable to the redundant nature of speech where semantic content spans multiple frames. We show that these alignment patterns are structurally stable across different analysis configurations. Crucially, simple statistical calibration is insufficient and can be detrimental when applied at the input layer, indicating that the modality gap is not a mere distribution shift. Overall, our results suggest that the bottleneck lies in condensing redundant speech into stable late-layer decisions, motivating future solutions that operate at the token or temporal granularity instead of feature-level matching.
- Abstract(参考訳): 大規模音声言語モデルの最近の進歩は、音響信号と言語理解のギャップを著しく橋渡ししている。
しかし、音声による入力タスクでは、直接テキスト推論と比較して、持続的なパフォーマンスの相違が残っている。
本稿では,このモダリティギャップの動的根源を静的な幾何学的アライメントを超えて検討し,音声とテキストの表現が階層的にどのように進化するかを解析する。
我々はSpeechMMLUとVoiceBench BBHの4つのオープンウェイト・エンド・ツー・エンド・モデルを評価する。
音声・テキスト・トークンアライメントを用いた層間CKA分析により,複数のフレームにまたがる音声の冗長性に起因して,音声表現が広い層間アライメント帯域を示すことがわかった。
これらのアライメントパターンは、異なる解析構成で構造的に安定であることを示す。
重要なことは、単純な統計的キャリブレーションが不十分であり、入力層に印加すると有害となり、モダリティギャップが単なる分布シフトではないことを示す。
全体として、このボトルネックは、冗長なスピーチを安定的な後期層決定に凝縮することであり、トークンや時間的粒度で機能レベルのマッチングではなく、将来的なソリューションを動機付けていることが示唆されている。
関連論文リスト
- CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation [32.72685791637924]
オンラインクロスモーダル自己蒸留を行う統合アライメントフレームワークであるCORDを提案する。
具体的には、音声条件の推論とテキスト条件の推論を統一モデル内で一致させる。
複数のベンチマークにまたがる実験結果から、CORDは音声条件推論を一貫して強化することが示された。
論文 参考訳(メタデータ) (2026-01-23T08:31:24Z) - Closing the Modality Reasoning Gap for Speech Large Language Models [33.22455377292432]
TARSは、テキスト条件と音声条件の軌跡を整列する強化学習フレームワークである。
提案手法は,7Bスケール音声LLMにおいて,モダリティ推論ギャップを著しく狭め,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-01-09T05:51:56Z) - Closing the Gap Between Text and Speech Understanding in LLMs [28.538793793887223]
大規模言語モデルは、テキスト機能を音声入力に拡張するために適応することができる。
これらの言語適応型LLMは、テキストベースのものよりも一貫して性能が劣っている。
SALAD-Sample- efficient Alignment with Learning through Active selection and cross-modal Distillation。
論文 参考訳(メタデータ) (2025-10-15T14:57:16Z) - Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models [12.263637152835713]
LSLM(End-to-end Large Speech Language Models)では,会話生成能力が顕著に向上している。
粗くきめ細かなテキストと音声表現の両方を解析する。
表現類似性はモダリティギャップと強く相関していることがわかった。
論文 参考訳(メタデータ) (2025-10-14T03:34:38Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。