論文の概要: REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model
- arxiv url: http://arxiv.org/abs/2509.22518v1
- Date: Fri, 26 Sep 2025 16:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.566872
- Title: REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model
- Title(参考訳): REMA: 大規模言語モデルの解釈のための統一型推論マニフォールドフレームワーク
- Authors: Bo Li, Guanzhi Deng, Ronghao Chen, Junrong Yue, Shuo Zhang, Qinghua Zhao, Linqi Song, Lijie Wen,
- Abstract要約: 推論多様体(Reasoning Manifold)は、すべての正しく推論された世代に対応する内部表現によって形成される潜在低次元幾何学構造である。
誤りと正しい推論サンプルに対応する内部モデル表現の空間的関係を定量的に比較することにより,障害の起源を説明するフレームワークであるREMAを構築した。
多様な言語およびマルチモーダルモデルおよびタスクに関する実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
- 参考スコア(独自算出の注目度): 29.40036398095681
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding how Large Language Models (LLMs) perform complex reasoning and their failure mechanisms is a challenge in interpretability research. To provide a measurable geometric analysis perspective, we define the concept of the Reasoning Manifold, a latent low-dimensional geometric structure formed by the internal representations corresponding to all correctly reasoned generations. This structure can be conceptualized as the embodiment of the effective thinking paths that the model has learned to successfully solve a given task. Based on this concept, we build REMA, a framework that explains the origins of failures by quantitatively comparing the spatial relationships of internal model representations corresponding to both erroneous and correct reasoning samples. Specifically, REMA first quantifies the geometric deviation of each erroneous representation by calculating its k-nearest neighbors distance to the approximated manifold formed by correct representations, thereby providing a unified failure signal. It then localizes the divergence points where these deviations first become significant by tracking this deviation metric across the model's layers and comparing it against a baseline of internal fluctuations from correct representations, thus identifying where the reasoning chain begins to go off-track. Our extensive experiments on diverse language and multimodal models and tasks demonstrate the low-dimensional nature of the reasoning manifold and the high separability between erroneous and correct reasoning representations. The results also validate the effectiveness of the REMA framework in analyzing the origins of reasoning failures. This research connects abstract reasoning failures to measurable geometric deviations in representations, providing new avenues for in-depth understanding and diagnosis of the internal computational processes of black-box models.
- Abstract(参考訳): 大言語モデル(LLM)がどのように複雑な推論を行い、その失敗メカニズムを理解することは、解釈可能性研究における課題である。
測定可能な幾何解析の観点で、すべての正しく推論された世代に対応する内部表現によって形成された潜在低次元幾何学的構造であるReasoning Manifoldの概念を定義する。
この構造は、モデルが与えられたタスクをうまく解くために学んだ効果的な思考経路の具体化として概念化することができる。
この概念に基づいて、誤推論と正しい推論の両方に対応する内部モデル表現の空間的関係を定量的に比較することにより、障害の起源を説明するフレームワークであるREMAを構築した。
特に、REMAは、k-アネレスト近傍距離を正しい表現で形成された近似多様体に計算することで、各誤表現の幾何偏差を第一に定量化し、統一された故障信号を与える。
次に、これらの偏差が最初に重要になる分岐点を、モデルの層をまたいでこの偏差距離を追跡し、正しい表現から内部のゆらぎのベースラインと比較することで局所化し、従って、推論連鎖が軌道から外れ始める場所を特定する。
多様な言語およびマルチモーダルモデルおよびタスクに関する広範な実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
その結果,REMAフレームワークが推論失敗の原因を分析する上での有効性についても検証した。
本研究は,抽象的推論失敗を表現の幾何学的偏差の測定に結び付け,ブラックボックスモデルの内部計算過程の深い理解と診断のための新たな道を提供する。
関連論文リスト
- Identifiable Multi-View Causal Discovery Without Non-Gaussianity [63.217175519436125]
多視点構造方程式モデル(SEM)の枠組みにおける線形因果発見への新しいアプローチを提案する。
我々は、SEMの構造が非巡回的であること以外は、余計な仮定をすることなく、モデルの全てのパラメータの識別可能性を証明する。
提案手法は,脳領域間の因果グラフの推定を可能にする実データへのシミュレーションおよび応用を通じて検証される。
論文 参考訳(メタデータ) (2025-02-27T14:06:14Z) - Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T07:19:05Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Learning a Structural Causal Model for Intuition Reasoning in
Conversation [20.243323155177766]
NLP研究の重要な側面である推論は、一般的なモデルによって適切に対処されていない。
我々は、各発話がどのように情報チャネルを受信し、活性化するかを説明する会話認知モデル(CCM)を開発した。
変分推論を利用することで、暗黙的な原因の代用を探索し、その観測不可能性の問題に対処し、証拠の低い境界を通して発話の因果表現を再構築する。
論文 参考訳(メタデータ) (2023-05-28T13:54:09Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - A Critical View of the Structural Causal Model [89.43277111586258]
相互作用を全く考慮せずに原因と効果を識別できることが示される。
本稿では,因果モデルの絡み合った構造を模倣する新たな逆行訓練法を提案する。
我々の多次元手法は, 合成および実世界の両方のデータセットにおいて, 文献的手法よりも優れている。
論文 参考訳(メタデータ) (2020-02-23T22:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。