論文の概要: Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability
- arxiv url: http://arxiv.org/abs/2603.10384v1
- Date: Wed, 11 Mar 2026 03:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.77107
- Title: Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability
- Title(参考訳): Beyond Scalars: 幾何学的進歩と安定性によるLLM推論の評価と理解
- Authors: Xinyan Jiang, Ninghao Liu, Di Wang, Lijie Hu,
- Abstract要約: TRACEDは理論的な基底を持つ幾何学的運動学によって推論品質を評価するフレームワークである。
適切な推論は高い進行性,安定した軌道であるのに対し,幻覚は低い進行性,不安定なパターンによって特徴づけられる。
- 参考スコア(独自算出の注目度): 32.78289130870447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating LLM reliability via scalar probabilities often fails to capture the structural dynamics of reasoning. We introduce TRACED, a framework that assesses reasoning quality through theoretically grounded geometric kinematics. By decomposing reasoning traces into Progress (displacement) and Stability (curvature), we reveal a distinct topological divergence: correct reasoning manifests as high-progress, stable trajectories, whereas hallucinations are characterized by low-progress, unstable patterns (stalled displacement with high curvature fluctuations). Leveraging these signatures, our probabilistic framework achieves competitive performance and superior robustness across diverse benchmarks. Crucially, TRACED bridges geometry and cognition by mapping high curvature to ''Hesitation Loops'' and displacement to ''Certainty Accumulation'', offering a physical lens to decode the internal dynamics of machine thought.
- Abstract(参考訳): スカラー確率によるLCM信頼性の評価は、しばしば推論の構造的ダイナミクスを捉えるのに失敗する。
理論的な基底を持つ幾何学的キネマティクスを用いて推論品質を評価するフレームワークであるTRACEDを紹介する。
進行(変位)と安定(曲率)に推論トレースを分解することにより、位相的相違が明らかになる: 正しい推論は高い進行性、安定した軌道として現れ、幻覚は低い進行性、不安定なパターン(高い曲率変動を伴うスタリング変位)によって特徴づけられる。
これらのシグネチャを活用することで、当社の確率的フレームワークは、さまざまなベンチマークにおいて、競争性能と優れた堅牢性を達成します。
重要な点として、TRACEDブリッジは、高い曲率を'Hesitation Loops'、変位を'Certainty Accumulation'にマッピングし、マシン思考の内部ダイナミクスをデコードする物理レンズを提供する。
関連論文リスト
- GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models [12.745473719032026]
本稿では、認知テーブル推論を実現するための新しいフレームワークSTaR(slow-thinking for table reasoning)を提案する。
STaRはステップバイステップ思考と不確実性認識推論を明示的にモデル化する。
ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
論文 参考訳(メタデータ) (2025-11-14T12:34:17Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。