論文の概要: Reasoning Structure of Large Language Models
- arxiv url: http://arxiv.org/abs/2606.03883v1
- Date: Tue, 02 Jun 2026 16:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.177296
- Title: Reasoning Structure of Large Language Models
- Title(参考訳): 大規模言語モデルの推論構造
- Authors: Frédéric Berdoz, Luca A. Lanzendörfer, Fabian Farestam, Roger Wattenhofer,
- Abstract要約: 論理パズルのスケーラブルな LRM ベンチマークと,非構造化トレースをクレームと依存関係の検証可能な推論グラフに変換するパイプラインを導入する。
この理論は、トポロジーを定量的に分析できる構造化された測定可能な対象へと変換される。
オープンソース推論モデルを用いた解析により, トークン数と精度を比較検討した。
- 参考スコア(独自算出の注目度): 35.831509191370095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) are often evaluated using metrics such as final-answer accuracy or token count. However, identical scores on these metrics can hide fundamentally different reasoning structures. To address this limitation, we introduce a scalable LRM benchmark of logic puzzles and a pipeline that converts unstructured traces into verifiable reasoning graphs of claims and dependencies. This turns reasoning into a structured, measurable object whose topology can be quantitatively analyzed. Building on this, we define a reasoning efficiency metric that quantifies how concentrated the model's logical flow is. Our analysis on open-source reasoning models shows that structural measurements separate behaviors that token count and accuracy conflate, providing a practical tool for diagnosing failure modes and comparing how reasoning scales with puzzle difficulty.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最終回答精度やトークン数などの指標を用いて評価されることが多い。
しかし、これらの測定値上の同一のスコアは、基本的に異なる推論構造を隠すことができる。
この制限に対処するために、スケーラブルな論理パズルのLEMベンチマークと、未構造化トレースをクレームと依存関係の検証可能な推論グラフに変換するパイプラインを導入する。
この理論は、トポロジーを定量的に分析できる構造化された測定可能な対象へと変換される。
これに基づいて、モデルの論理フローの集中度を定量化する推論効率指標を定義する。
オープンソース推論モデルを用いた解析により, トークン数と精度の相違を区別し, 故障モードを診断し, 推論がパズルの難易度でどのようにスケールするかを比較するための実用的なツールを提供する。
関連論文リスト
- Playing Psychic: Using Thought Trees to Predict Reasoning Models Accuracy on Coding Tasks [7.675768582345005]
実世界のコーディングベンチマークにおいて,フロンティア推論モデルを用いてそれらの性能について考察する。
そこで我々は,論理的トレースを表現する手段として,構造化思考木を提案する。
抽出した特徴に基づく構造的異常トレースのフラグ付けと再試行により,より低い複雑性レベルで一貫した利得が得られることを示す。
論文 参考訳(メタデータ) (2026-04-18T09:30:36Z) - Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model [29.40036398095681]
推論多様体(Reasoning Manifold)は、すべての正しく推論された世代に対応する内部表現によって形成される潜在低次元幾何学構造である。
誤りと正しい推論サンプルに対応する内部モデル表現の空間的関係を定量的に比較することにより,障害の起源を説明するフレームワークであるREMAを構築した。
多様な言語およびマルチモーダルモデルおよびタスクに関する実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
論文 参考訳(メタデータ) (2025-09-26T16:02:27Z) - ReasoningFlow: Semantic Structure of Complex Reasoning Traces [9.328084104525834]
ReasoningFlowはトレースを非巡回グラフに解析し、サブグラフ構造として異なる推論パターンを特徴づけることを可能にする。
この人間解釈可能な表現は、LRMの推論プロセスを理解し、評価し、拡張する上で有望な応用を提供する。
論文 参考訳(メタデータ) (2025-06-03T07:11:34Z) - Semi-structured LLM Reasoners Can Be Rigorously Audited [43.72257027288094]
半構造化推論モデル (SSRM) を導入し, 推論の半構造化表現を生成する訓練を行った。
SSRMは、実行不可能なPythonの構文で推論トレースを生成し、各推論ステップを指定し、入力と出力をマークする。
これらの手法はすべて、予測可能な推論エラーを効果的にフラグできることを示す。
論文 参考訳(メタデータ) (2025-05-30T05:06:10Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。