論文の概要: Latent Debate: A Surrogate Framework for Interpreting LLM Thinking
- arxiv url: http://arxiv.org/abs/2512.01909v1
- Date: Mon, 01 Dec 2025 17:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.991671
- Title: Latent Debate: A Surrogate Framework for Interpreting LLM Thinking
- Title(参考訳): Latent Debate: LLM思考を解釈するためのサロゲートフレームワーク
- Authors: Lihu Chen, Xiang Yin, Francesca Toni,
- Abstract要約: 暗黙的な内部議論のレンズを通してモデル予測を解釈する新しいフレームワークである潜在討論を紹介する。
提案手法は,従来のLSMと高度に一貫した予測を持つ忠実な構造的サロゲートモデルであることを示す。
さらに分析すると、幻覚と議論パターンの間に強い相関関係があることが示され、例えば、中間層における潜伏した議論の度合いは、幻覚のリスクが高いことが示される。
- 参考スコア(独自算出の注目度): 26.20998021856433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the internal thinking process of Large Language Models (LLMs) and the cause of hallucinations remains a key challenge. To this end, we introduce latent debate, a novel framework for interpreting model predictions through the lens of implicit internal arguments. Unlike the current work of self-consistency and multi-agent debate, which relies on explicit debates among multiple answers or multiple models, latent debate captures the hidden supporting and attacking signals that arise within a single model during a single inference. We first present a model- and task-agnostic conceptual framework, and then instantiate it symbolically to approximate the thinking process of LLMs on True/False prediction tasks. Empirical studies demonstrate that latent debate is a faithful structured surrogate model that has highly consistent predictions with the original LLM. Beyond interpretability, we demonstrate that latent debate provides a strong baseline for hallucination detection. Further analysis reveals strong correlations between hallucinations and debate patterns, such as a high degree of latent debates in the middle layers is linked to a higher risk of hallucinations. These findings position latent debate as a potential framework for understanding internal mechanisms of LLMs, especially for scenarios where internal (dis)agreements appear during the inference steps.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部思考プロセスと幻覚の原因を理解することは依然として重要な課題である。
この目的のために、暗黙の内的議論のレンズを通してモデル予測を解釈する新しい枠組みである潜在的議論を紹介する。
現在の自己整合性やマルチエージェントの議論とは違って、複数の回答や複数のモデル間の明確な議論に依存しているため、潜在的議論は単一の推論中に単一のモデル内で発生する隠れたサポートと攻撃的なシグナルを捉えている。
まず、モデルおよびタスクに依存しない概念的枠組みを提示し、次に、真の/偽予測タスクにおけるLLMの思考過程をシンボライズする。
実証的研究により、潜伏論争は、元のLSMと高度に一貫した予測を持つ忠実な構造的代理モデルであることが示された。
解釈可能性の他に、潜在的議論が幻覚検出の強力なベースラインを提供することを示す。
さらに分析すると、幻覚と議論パターンの間に強い相関関係があることが示され、例えば、中間層における潜伏した議論の度合いは、幻覚のリスクが高いことが示される。
これらの知見は,LSMの内部機構を理解するための潜在的な枠組みとして,特に推論ステップ中に内部(不一致)が出現するシナリオにおいて,近年の議論の場として位置づけられている。
関連論文リスト
- Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文 参考訳(メタデータ) (2025-05-20T17:18:17Z) - Large Language Models Understanding: an Inherent Ambiguity Barrier [0.0]
世界を理解する能力に関して、LLM(Large Language Models)の出現以来、活発に議論が続いている。
議論と反論は、思考実験、LLMと人間との逸話会話、統計的言語分析、哲学的考察などに基づいて提案されている。
本稿では, 思考実験と半形式的考察に基づいて, 内在的あいまいさの障壁に繋がる反論を提示する。
論文 参考訳(メタデータ) (2025-05-01T16:55:44Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。