論文の概要: Closing the Modality Reasoning Gap for Speech Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05543v1
- Date: Fri, 09 Jan 2026 05:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.853013
- Title: Closing the Modality Reasoning Gap for Speech Large Language Models
- Title(参考訳): 音声大言語モデルにおけるモーダリティ推論ギャップの閉鎖
- Authors: Chaoren Wang, Heng Lu, Xueyao Zhang, Shujie Liu, Yan Lu, Jinyu Li, Zhizheng Wu,
- Abstract要約: TARSは、テキスト条件と音声条件の軌跡を整列する強化学習フレームワークである。
提案手法は,7Bスケール音声LLMにおいて,モダリティ推論ギャップを著しく狭め,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 33.22455377292432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although speech large language models have achieved notable progress, a substantial modality reasoning gap remains: their reasoning performance on speech inputs is markedly weaker than on text. This gap could be associated with representational drift across Transformer layers and behavior deviations in long-chain reasoning. To address this issue, we introduce TARS, a reinforcement-learning framework that aligns text-conditioned and speech-conditioned trajectories through an asymmetric reward design. The framework employs two dense and complementary signals: representation alignment, which measures layer-wise hidden-state similarity between speech- and text-conditioned trajectories, and behavior alignment, which evaluates semantic consistency between generated outputs and reference text completions. Experiments on challenging reasoning benchmarks, including MMSU and OBQA, show that our approach significantly narrows the modality reasoning gap and achieves state-of-the-art performance among 7B-scale Speech LLMs.
- Abstract(参考訳): 音声大言語モデルは顕著な進歩を遂げたものの、音声入力に対する推論性能はテキストよりも著しく弱いため、かなりのモダリティ推論ギャップが残っている。
このギャップは、Transformer層をまたいだ表現的ドリフトと、ロングチェーン推論における振る舞いの偏差と関連付けられる可能性がある。
この問題に対処するために,非対称な報酬設計によりテキスト条件と音声条件のトラジェクトリを整列する強化学習フレームワークであるTARSを導入する。
このフレームワークは、表現アライメント(表現アライメント)とテキストコンディショナリー(テキストコンディショナリー)と、生成された出力と参照テキストコンプリート間のセマンティック一貫性を評価する振る舞いアライメント(振舞いアライメント)という2つの密で補完的な信号を使用する。
MMSU や OBQA などの挑戦的推論ベンチマーク実験により,提案手法は7B スケールの音声LLM において,モダリティ推論のギャップを著しく狭め,最先端の性能を達成することを示す。
関連論文リスト
- Closing the Gap Between Text and Speech Understanding in LLMs [28.538793793887223]
大規模言語モデルは、テキスト機能を音声入力に拡張するために適応することができる。
これらの言語適応型LLMは、テキストベースのものよりも一貫して性能が劣っている。
SALAD-Sample- efficient Alignment with Learning through Active selection and cross-modal Distillation。
論文 参考訳(メタデータ) (2025-10-15T14:57:16Z) - Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models [12.263637152835713]
LSLM(End-to-end Large Speech Language Models)では,会話生成能力が顕著に向上している。
粗くきめ細かなテキストと音声表現の両方を解析する。
表現類似性はモダリティギャップと強く相関していることがわかった。
論文 参考訳(メタデータ) (2025-10-14T03:34:38Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation [20.415410280412697]
本研究では,大言語モデル (LLM) 内の選択された層における音声とテキストの表現を明示的に整合させることにより,モダリティギャップを埋める適応的内部音声テキストアライメント (AI-STA) 手法を提案する。
音声翻訳タスクにおける実験結果から、AI-STAは、従来の最先端手法よりも大きな音声テキストモデル(LSM)の翻訳性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-13T09:54:35Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。