論文の概要: Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2603.01326v1
- Date: Sun, 01 Mar 2026 23:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.62705
- Title: Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning
- Title(参考訳): 軌跡としての真実:大言語モデル推論に関する内部表現
- Authors: Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad, Afshar Shamsi, Zhen Zhang, Javen Shi,
- Abstract要約: 大規模言語モデルのためのトラジェクトリ(TaT)としてTrathを導入する。
TaTは静的なアクティベーションから層幅の幾何変位への解析をシフトする。
本稿では,TaTが静的な語彙の共役に依存することを効果的に軽減し,従来の探索よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 19.48395840455837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing explainability methods for Large Language Models (LLMs) typically treat hidden states as static points in activation space, assuming that correct and incorrect inferences can be separated using representations from an individual layer. However, these activations are saturated with polysemantic features, leading to linear probes learning surface-level lexical patterns rather than underlying reasoning structures. We introduce Truth as a Trajectory (TaT), which models the transformer inference as an unfolded trajectory of iterative refinements, shifting analysis from static activations to layer-wise geometric displacement. By analyzing displacement of representations across layers, TaT uncovers geometric invariants that distinguish valid reasoning from spurious behavior. We evaluate TaT across dense and Mixture-of-Experts (MoE) architectures on benchmarks spanning commonsense reasoning, question answering, and toxicity detection. Without access to the activations themselves and using only changes in activations across layers, we show that TaT effectively mitigates reliance on static lexical confounds, outperforming conventional probing, and establishes trajectory analysis as a complementary perspective on LLM explainability.
- Abstract(参考訳): LLM(Large Language Models)の既存の説明可能性メソッドは一般的に、個々の層からの表現を用いて正しい推論と誤った推論を分離できると仮定して、アクティベーション空間の静的な点として隠れた状態を扱います。
しかし、これらの活性化は多意味的な特徴で飽和しており、基礎となる推論構造ではなく、表面レベルの語彙パターンを学習する線形プローブとなる。
そこで,Truth as a Trajectory (TaT) を導入し,変圧器推論を反復的改善の展開軌道としてモデル化し,静的なアクティベーションから層幅の幾何変位へ解析をシフトする。
層間の表現の変位を分析することで、TaTは、妥当な推論と突発的な振る舞いを区別する幾何学的不変量を明らかにする。
本研究では,高密度・高密度・高密度・高密度・高密度・高密度・高密度・高密度・高密度・高密度・高密度・高密度・高密度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高感度・高密度・高密度・高密度・高密度・高密度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高強度・高
アクティベーション自体へのアクセスや層間のアクティベーションの変化のみを用いることなく、TaTは静的なレキシカルなコンファウンドへの依存を効果的に軽減し、従来のプローブよりも優れており、LCM説明可能性の相補的な視点として軌道解析を確立している。
関連論文リスト
- FreeAct: Freeing Activations for LLM Quantization [89.97086263978058]
量子化は、大規模言語モデルの重要なメモリと計算オーバーヘッドを軽減するために重要である。
FreeActは静的な1対1の制約を緩和し、動的アクティベーションの格差を緩和する新しい量子化フレームワークである。
dLLMとMLLMでの実験では、FreeActはベースラインを大幅に上回り、パフォーマンスは最大5.3%向上した。
論文 参考訳(メタデータ) (2026-03-02T12:02:17Z) - Structural Disentanglement in Bilinear MLPs via Architectural Inductive Bias [0.0]
我々は、モデルがトレーニング中に内部表現をどのように構成するかから失敗が発生すると主張している。
線形パラメータ化は勾配流条件下での非混合特性を有することを示す。
ポイントワイズ非線形ネットワークとは異なり、乗法的アーキテクチャは、基礎となる代数構造と整合した真の作用素を復元することができる。
論文 参考訳(メタデータ) (2026-02-05T13:14:01Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - Introspection in Learned Semantic Scene Graph Localisation [7.222321327403328]
本研究は,セマンティックスが自己監督型コントラスト型セマンティックローカライゼーションフレームワークにおいて,セマンティックスがローカライズ性能とロバスト性にどのように影響するかを考察する。
本研究では, モデルが環境騒音をフィルタし, 特異なランドマークを日常的に乱雑に優先するかどうかを調査するために, 徹底的なポストホックイントロスペクション分析を行う。
以上の結果から,このモデルでは位置定義に関する意味論的に健全な関係を学習し,視覚的・構造的な難易度で説明可能な登録を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-10-08T14:21:45Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の潜在空間幾何を理解することは、それらの振舞いとアライメントの鍵となる。
我々は6つの科学的トピックにわたる11の経験的モデルで大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology [4.280045926995889]
本研究では,大規模言語モデルの内部表現空間に対して,逆入力が体系的にどう影響するかに着目した。
アクティベーションの形状と神経情報の流れを定量化することにより、アーキテクチャに依存しない枠組みは、表現的変化の基本的な不変性を明らかにする。
論文 参考訳(メタデータ) (2025-05-26T18:31:49Z) - TRACE for Tracking the Emergence of Semantic Representations in Transformers [10.777646083061395]
本稿では,トランスフォーマーに基づくLMにおける位相遷移を検出するために,幾何学的,情報的,言語的信号を組み合わせた診断フレームワークTRACEを紹介する。
実験により、位相遷移は曲率崩壊と寸法安定化の明確な交点と一致し、これらの幾何学的シフトは、新たな構文的および意味論的精度と一致することが明らかになった。
この研究は、モデル解釈可能性、訓練効率、構成一般化に関する洞察を提供することで、言語的抽象がLMにどのように現れるかの理解を深める。
論文 参考訳(メタデータ) (2025-05-23T15:03:51Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Instance-Dependent Label-Noise Learning with Manifold-Regularized
Transition Matrix Estimation [172.81824511381984]
遷移行列 T(x) は、インスタンス依存ノイズ(IDN)の下では特定できない
我々は、T(x) の幾何学について、「より近い2つのインスタンスは、それに対応する遷移行列がより類似している」という仮定を提案する。
本手法は,難解なIDNの下でのラベルノイズ学習において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-06T04:12:01Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。