論文の概要: ReasoningFlow: Discourse Structures for Understanding LLM Reasoning Traces
- arxiv url: http://arxiv.org/abs/2606.05402v1
- Date: Wed, 03 Jun 2026 20:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.379233
- Title: ReasoningFlow: Discourse Structures for Understanding LLM Reasoning Traces
- Title(参考訳): 推論フロー:LLM推論トレースを理解するための談話構造
- Authors: Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier,
- Abstract要約: ReasoningFlowは、LRM推論の談話構造を微粒な非巡回グラフにトレースするフレームワークである。
ReasoningFlowグラフを解析することにより、異なるベースモデルからトレーニングされているにもかかわらず、LRMは構造的に類似したトレースを示すことがわかった。
ReasoningFlowは、トレース監視性を改善するために使用できる、さまざまなきめ細かい推論動作を明らかにする。
- 参考スコア(独自算出の注目度): 13.927941324541356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) produce reasoning traces with non-linear structures, such as backtracking and self-correction, that complicate the evaluation and monitoring of the reasoning process. We introduce ReasoningFlow, a framework that captures the discourse structures of LRM reasoning traces into fine-grained directed acyclic graphs (DAGs). We develop and validate our annotation schema through careful manual annotation of 31 traces (2.1k steps), achieving high inter-annotator agreement, then scale to automatic annotation of 1,260 traces (247.7k steps) spanning three tasks (math, science, argumentation) and five models (Qwen2.5-32B-Inst, QwQ-32B, DeepSeek-V3, DeepSeek-R1, GPT-oss-120B). By analyzing ReasoningFlow graphs, we find: (1) LRMs exhibit structurally similar traces, despite being trained from different base models and potentially non-overlapping post-training data. (2) ReasoningFlow reveals diverse fine-grained reasoning behaviors (e.g., local verification, self-reflection, and assumptions) that can be used for better reasoning trace monitorability. (3) In LRMs, most of the erroneous steps are not used to derive final answers. (4) Mechanistic causal dependencies between steps do not reflect the language-level discourse structure. We release the dataset and code in: https://github.com/jinulee-v/reasoningflow.
- Abstract(参考訳): 大きな推論モデル(LRM)は、推論プロセスの評価と監視を複雑にするバックトラックや自己補正のような非線形構造を持つ推論トレースを生成する。
本稿では, LRM推論トレースの談話構造を, 微粒な有向非巡回グラフ(DAG)にキャプチャするフレームワークReasoningFlowを紹介する。
我々は,31のトレース(2.1kステップ)の注意的な手動アノテーションを用いてアノテーションスキーマを開発し,ハイアノテータ合意を達成し,さらに3つのタスク(数学,科学,議論)と5つのモデル(Qwen2.5-32B-Inst,QwQ-32B,DeepSeek-V3,DeepSeek-R1,GPT-oss-120B)にまたがる1,260のトレース(247.7kステップ)の自動アノテーションにスケールする。
1) LRMは、異なるベースモデルと潜在的に重複しないトレーニング後のデータからトレーニングされているにもかかわらず、構造的に類似したトレースを示す。
2) ReasoningFlowは、トレース監視性を改善するために使用できる様々なきめ細かい推論挙動(例えば、局所的な検証、自己回帰、仮定)を明らかにする。
(3) LRMでは, 誤答のほとんどは最終回答の導出には使用されない。
(4) ステップ間の機械的因果関係は言語レベルの談話構造を反映しない。
データセットとコードを以下にリリースします。
関連論文リスト
- Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens [4.0704009036918025]
大規模言語モデルにおける推論は、重要な推論時間計算を引き起こす。
推論トークンは、低エントロピーのテクスト構造トークン(推論過程を足場とするフレーズの再帰)と高エントロピーのテクスト有機トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分かれていることを示す。
頻繁な構造パターンをキャプチャするテクスチャツペルトケンを導出し、教師付き微調整によりモデルに導入するように教える。
論文 参考訳(メタデータ) (2026-04-29T07:06:43Z) - Multi-Agent Procedural Graph Extraction with Structural and Logical Refinement [66.51979814832332]
モデル式は、専用の構造的および論理的洗練を伴う多ラウンド推論プロセスとして手続きグラフ抽出を定式化する。
実験により、モデルが強いベースラインに対して構造的正当性と論理的整合性の両方において大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2026-01-27T04:00:48Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Do Cognitively Interpretable Reasoning Traces Improve LLM Performance? [15.970162088175593]
CoT(Chain-of-Thought)トレースは、回答を生成する前に中間的推論トレースを生成する。
よくあるが、しばしば暗黙的な仮定は、CoTトレースは意味論的に意味があり、エンドユーザに解釈可能であるべきだというものである。
本稿では,LLaMAモデルとQwenモデルの教師付き微調整によるオープンブック質問応答領域におけるこの問題について検討する。
論文 参考訳(メタデータ) (2025-08-21T23:48:50Z) - ReasoningFlow: Semantic Structure of Complex Reasoning Traces [9.328084104525834]
ReasoningFlowはトレースを非巡回グラフに解析し、サブグラフ構造として異なる推論パターンを特徴づけることを可能にする。
この人間解釈可能な表現は、LRMの推論プロセスを理解し、評価し、拡張する上で有望な応用を提供する。
論文 参考訳(メタデータ) (2025-06-03T07:11:34Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。