論文の概要: Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention
- arxiv url: http://arxiv.org/abs/2606.04474v1
- Date: Wed, 03 Jun 2026 05:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.57053
- Title: Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention
- Title(参考訳): LLM推論におけるエンティティ結合障害:診断と連鎖干渉
- Authors: Ming-Hao Hsu, Xiaohai Tian, Jun Zhang, Zhizheng Wu,
- Abstract要約: 音声大言語モデル(SLLM)は、複雑な推論においてテキストモデルよりも性能が低い。
空間的, 構文的, 事実的タスクにおいて, テキスト間マッチング(S2T)はテキスト間マッチング(T2T)を超えているかを示す。
エンティティ追跡を必要とする論理的タスクでは、S2Tの精度は偶然に崩壊する。
- 参考スコア(独自算出の注目度): 13.564631357170276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Large Language Models (SLLMs) underperform their text counterparts on complex reasoning. We reveal that this modality gap is not a uniform cognitive deficit. Evaluating three diverse SLLMs, we show speech-to-text (S2T) matches or exceeds text-to-text (T2T) on spatial, syntactic, and factual tasks. However, on logical tasks requiring entity tracking, S2T accuracy collapses to chance. We diagnose this localized degradation as an entity binding failure: continuous speech features cause models to lose precise entity-property associations during implicit reasoning. To resolve this, we propose Entity-Aware Chain-of-Thought (EA-CoT), forcing SLLMs to explicitly enumerate entities and bind them to claims before reasoning. Strikingly, EA-CoT bridges the gap, even when spoken names are misrecognized, yielding up to a 24.4% absolute accuracy improvement. Ablations confirm these gains stem entirely from explicit semantic binding, reframing the gap as a resolvable bottleneck.
- Abstract(参考訳): 音声大言語モデル(SLLM)は、複雑な推論においてテキストモデルよりも性能が低い。
我々は、このモダリティギャップが認知障害の一様でないことを明らかにした。
3つの多様なSLLMを評価し,空間的,統語的,事実的タスクにおいて,S2Tが一致したか,テキスト・トゥ・テキスト(T2T)を超えるかを示す。
しかし、エンティティ追跡を必要とする論理的なタスクでは、S2Tの精度は偶然に崩壊する。
連続音声特徴は、暗黙の推論において、モデルが正確なエンティティ・プロパティ・アソシエーションを失う原因となる。
これを解決するために、私たちはエンティティを明示的に列挙し、推論する前にそれらをクレームにバインドするようにSLLMに強制するEA-CoT(Entity-Aware Chain-of-Thought)を提案する。
興味深いことに、EA-CoTは話し言葉が誤認識されたとしてもギャップを埋め、24.4%の絶対精度の改善をもたらす。
アブレーションはこれらの利得は、そのギャップを解決可能なボトルネックとみなす明示的なセマンティックな結合に由来すると断言する。
関連論文リスト
- When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks [8.210112631285666]
大規模言語モデル(LLM)は、形式的な言語タスクにおいて強力なパフォーマンスを示している。
正規言語を用いた決定論的有限オートマトン (DFA) 構築のためのベンチマークを導入する。
モデルが実際の質問に対して完璧に精度を達成し、タスクに対して84-90%を達成できることを示すが、その精度は目に見えない問題に対して急激に低下する。
論文 参考訳(メタデータ) (2026-01-19T21:00:31Z) - SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens [43.78883511257627]
CoT(Chain-of-Thought)の推論は、効率クリティカルなアプリケーションへの大量展開を妨げる。
本稿では,SemCoTと呼ばれる意味的に整合した暗黙的CoTフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-28T20:11:54Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Correct-Detect: Balancing Performance and Ambiguity Through the Lens of Coreference Resolution in LLMs [8.879888552904598]
LLM(Large Language Models)は、人間の言語能力の反映を目的とした言語モデルである。
LLMは、コア参照の曖昧さとコア参照のあいまいさの検出の両方において、最小限のプロンプトで優れた性能を実現することができることを示す。
我々は、CORRECT-DETECTトレードオフを提示する:モデルには、機能とデプロイの両方があり、暗黙的にデプロイするが、これらの2つの能力のバランスを成功させることは、依然として明白である。
論文 参考訳(メタデータ) (2025-09-17T22:12:30Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - End-to-End Spoken Language Understanding Without Full Transcripts [38.19173637496798]
音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。
CTCモデルとアテンションベースのエンコーダ・デコーダモデルという2つのタイプを作成した。
ATISコーパスにおける発話・発話実験では、CTCとアテンションモデルの両方が、非発話語をスキップする印象的な能力を示した。
論文 参考訳(メタデータ) (2020-09-30T01:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。