論文の概要: X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes
- arxiv url: http://arxiv.org/abs/2603.05290v1
- Date: Thu, 05 Mar 2026 15:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.298515
- Title: X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes
- Title(参考訳): X-RAY: ホルマライズおよび校正プローブによるLCM推論能力のマッピング
- Authors: Gao Tianxi, Cai Yufan, Yuan Yusi, Dong Jin Song,
- Abstract要約: 大規模言語モデル(LLM)は有望な性能を達成するが、その推論能力はいまだによく分かっていない。
我々は、校正された正式に検証されたプローブを用いてLCM推論能力をマッピングする説明可能な推論分析システムであるX線について述べる。
数学,物理学,化学の分野において,中等レベルから高度な問題に対する現状のLSMの評価を行った。
- 参考スコア(独自算出の注目度): 11.988348978958376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) achieve promising performance, yet their ability to reason remains poorly understood. Existing evaluations largely emphasize task-level accuracy, often conflating pattern matching with reasoning capability. We present X-RAY, an explainable reasoning analysis system that maps the LLM reasoning capability using calibrated, formally verified probes. We model reasoning capability as a function of extractable \textit{structure}, operationalized through formal properties such as constraint interaction, reasoning depth, and solution-space geometry. X-Ray generates probes via formal tools with controlled structural variations, enabling precise isolation of incremental structural information through formal calibration and verification. We evaluate state-of-the-art LLMs on problems ranging from junior-level to advanced in mathematics, physics, and chemistry. Our analysis reveals a systematic asymmetry in LLM reasoning: models are relatively robust to constraint refinement, where additional conditions shrink an existing solution space, but degrade sharply under solution-space restructuring, where modifications alter the underlying structural form of the solution manifold. Moreover, calibrated formal probes differentiate models that appear indistinguishable on standard benchmarks and reveal failure modes that are structurally interpretable rather than opaque. Beyond evaluation, our framework is contamination-free and supports the training and testing of reasoning models.
- Abstract(参考訳): 大規模言語モデル(LLM)は有望な性能を達成するが、その推論能力はいまだによく分かっていない。
既存の評価はタスクレベルの精度を重視しており、しばしば推論能力とパターンマッチングを混同している。
キャリブレーションされた正式に検証されたプローブを用いてLCM推論能力をマッピングする説明可能な推論解析システムであるX-RAYを提案する。
我々は、制約相互作用、推論深さ、解空間幾何学などの形式的性質を通じて操作される、抽出可能な \textit{structure} の関数としての推論能力をモデル化する。
X線は、制御された構造変化を持つフォーマルツールを介してプローブを生成し、フォーマルキャリブレーションと検証を通じてインクリメンタルな構造情報の正確な分離を可能にする。
数学,物理学,化学の分野において,中等レベルから高度な問題に対する現状のLSMの評価を行った。
モデルは制約強化に対して比較的堅牢であり、追加条件は既存の解空間を縮小するが、解空間再構成の下で急激に分解され、修正は解多様体の構造形式を変化させる。
さらに、キャリブレーションされたフォーマルプローブは、標準ベンチマークでは区別できないように見えるモデルを区別し、不透明ではなく構造的に解釈可能な障害モードを明らかにする。
評価の他に、我々のフレームワークは汚染のないもので、推論モデルのトレーニングとテストをサポートしている。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - SphUnc: Hyperspherical Uncertainty Decomposition and Causal Identification via Information Geometry [7.816699755198432]
本稿では,超球面表現学習と構造因果モデリングを組み合わせた統合フレームワークであるSphUncを紹介する。
球状潜伏剤の構造因果モデルにより、サンプルベースシミュレーションによる直接的影響同定と介入推論が可能となる。
社会的および感情的なベンチマークに関する実証的な評価では、精度の向上、校正の改善、因果信号の解釈が示されている。
論文 参考訳(メタデータ) (2026-03-01T16:11:49Z) - Confusion-Aware Rubric Optimization for LLM-based Automated Grading [31.353360036776976]
本稿では,精度と計算効率を向上させる新しいフレームワークであるConfusion-Aware Optimization (CARO)を紹介する。
CAROはモノリシックなエラー信号を異なるモードに分解し、明確な診断と特定の誤分類パターンの修復を可能にする。
以上の結果から,複合エラー集約を外科的,モード特異的な修復に置き換えることにより,自動評価のスケーラビリティと精度が向上することが示唆された。
論文 参考訳(メタデータ) (2026-02-28T04:17:12Z) - TRUE: A Trustworthy Unified Explanation Framework for Large Language Model Reasoning [0.2538209532048867]
大規模言語モデル(LLM)は複雑な推論タスクにおいて強力な能力を示してきたが、その意思決定プロセスは解釈が難しいままである。
本稿では,実行可能推論検証,実現可能な領域指向非巡回グラフ(DAG)モデリング,因果故障モード解析を統合したTrustworthy Unified Explanation Framework(TRUE)を提案する。
論文 参考訳(メタデータ) (2026-02-21T17:00:54Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - CircuChain: Disentangling Competence and Compliance in LLM Circuit Analysis [0.0]
本稿では,電気回路解析における物理推論能力から命令コンプライアンスを遠ざけるように設計された診断ベンチマークであるCircuChainを紹介する。
シンボリック・ソルバ、SPICEシミュレーション、LLMに基づくエラー分類を組み合わせた多段階検証パイプラインは、エラーのきめ細かい帰属を可能にする。
評価された最強モデルは、ほぼ完全な物理的推論を示すが、Trap条件が意図的に自然のサインパターンを逆転させる場合、規約違反の頻度が高い。
論文 参考訳(メタデータ) (2026-01-29T06:13:44Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - Can LLMs Assist Expert Elicitation for Probabilistic Causal Modeling? [0.0]
本研究では,構造化因果知識を抽出するための人間専門家の勧誘の代替として,Large Language Models (LLMs) の可能性について検討する。
LLMは因果構造、特にベイズネットワーク(BN)を生成し、従来の統計手法と比較した。
LLMが生成したBNは、専門家によって導かれ統計的に生成されたBNよりも低いエントロピーを示し、予測の信頼性と精度が示唆された。
論文 参考訳(メタデータ) (2025-04-14T16:45:52Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。