論文の概要: Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models
- arxiv url: http://arxiv.org/abs/2510.12116v1
- Date: Tue, 14 Oct 2025 03:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.176143
- Title: Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models
- Title(参考訳): モダリティギャップを理解する:大規模言語モデルの音声テキストアライメント機構に関する実証的研究
- Authors: Bajian Xiang, Shuaijiang Zhao, Tingwei Guo, Wei Zou,
- Abstract要約: LSLM(End-to-end Large Speech Language Models)では,会話生成能力が顕著に向上している。
粗くきめ細かなテキストと音声表現の両方を解析する。
表現類似性はモダリティギャップと強く相関していることがわかった。
- 参考スコア(独自算出の注目度): 12.263637152835713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end Large Speech Language Models (LSLMs) have demonstrated impressive conversational generation abilities, yet consistently fall short of traditional pipeline systems on semantic understanding benchmarks. In this work, we reveal through systematic experimentation that although LSLMs lose some text input performance after speech-text alignment training, the performance gap between speech and text inputs is more pronounced, which we refer to as the modality gap. To understand this gap, we analyze both coarse- and fine-grained text and speech representations. At the coarse-grained level, representations of speech and text in deeper layers are found to be increasingly aligned in direction (cosine similarity), while concurrently diverging in magnitude (Euclidean distance). We further find that representation similarity is strongly correlated with the modality gap. At the fine-grained level, a spontaneous token-level alignment pattern between text and speech representations is observed. Based on this, we introduce the Alignment Path Score to quantify token-level alignment quality, which exhibits stronger correlation with the modality gap. Building on these insights, we design targeted interventions on critical tokens through angle projection and length normalization. These strategies demonstrate the potential to improve correctness for speech inputs. Our study provides the first systematic empirical analysis of the modality gap and alignment mechanisms in LSLMs, offering both theoretical and methodological guidance for future optimization.
- Abstract(参考訳): エンド・ツー・エンドのLarge Speech Language Models (LSLM) は、会話生成能力を示すが、セマンティック理解ベンチマークでは従来のパイプラインシステムには一貫して劣っている。
本研究では,LSLMが音声テキストアライメント訓練後にテキスト入力性能を損なうが,音声とテキストの入力間の性能差はより顕著であり,モダリティギャップ(Modality gap)と呼ぶことを,体系的な実験を通じて明らかにした。
このギャップを理解するために、粗いテキストと微粒なテキストと音声の表現の両方を分析する。
粗粒度レベルでは、より深い層における音声とテキストの表現は、大きさ(ユークリッド距離)を同時に変化させながら、方向(コサイン類似性)にますます整列していることが分かる。
さらに,表現類似性はモダリティギャップと強く相関していることがわかった。
きめ細かいレベルでは、テキストと音声表現の間の自発的なトークンレベルアライメントパターンが観察される。
これに基づいて、アライメントパススコアを導入し、トークンレベルのアライメント品質を定量化し、モダリティギャップとより強い相関を示す。
これらの知見に基づいて、角度投影と長さ正規化による臨界トークンに対する標的介入を設計する。
これらの戦略は、音声入力の正確性を改善する可能性を実証する。
本研究は,LSLMにおけるモダリティギャップとアライメント機構の体系的解析を行い,将来の最適化のための理論的および方法論的ガイダンスを提供する。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation [20.415410280412697]
本研究では,大言語モデル (LLM) 内の選択された層における音声とテキストの表現を明示的に整合させることにより,モダリティギャップを埋める適応的内部音声テキストアライメント (AI-STA) 手法を提案する。
音声翻訳タスクにおける実験結果から、AI-STAは、従来の最先端手法よりも大きな音声テキストモデル(LSM)の翻訳性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-13T09:54:35Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。