論文の概要: Characterizing, Evaluating, and Optimizing Complex Reasoning
- arxiv url: http://arxiv.org/abs/2602.08498v1
- Date: Mon, 09 Feb 2026 10:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.176794
- Title: Characterizing, Evaluating, and Optimizing Complex Reasoning
- Title(参考訳): 複雑な推論の特徴付け、評価、最適化
- Authors: Haoran Zhang, Yafu Li, Zhi Wang, Zhilin Wang, Shunkai Zhang, Xiaoye Qu, Yu Cheng,
- Abstract要約: 大きな推論モデルは、複雑な内部構造を持つ推論トレースにますます依存している。
既存の作業には3つの基本的な質問に対する統一された回答が欠けている。
高品質な推論を定義するもの、長く暗黙的に構造化された推論トレースを確実に評価する方法、推論最適化にそのような評価信号を使用する方法。
- 参考スコア(独自算出の注目度): 44.98294610511283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) increasingly rely on reasoning traces with complex internal structures. However, existing work lacks a unified answer to three fundamental questions: (1) what defines high-quality reasoning, (2) how to reliably evaluate long, implicitly structured reasoning traces, and (3) how to use such evaluation signals for reasoning optimization. To address these challenges, we provide a unified perspective. (1) We introduce the ME$^2$ principle to characterize reasoning quality along macro- and micro-level concerning efficiency and effectiveness. (2) Built on this principle, we model reasoning traces as directed acyclic graphs (DAGs) and develop a DAG-based pairwise evaluation method, capturing complex reasoning structures. (3) Based on this method, we construct the TRM-Preference dataset and train a Thinking Reward Model (TRM) to evaluate reasoning quality at scale. Experiments show that thinking rewards serve as an effective optimization signal. At test time, selecting better reasoning leads to better outcomes (up to 19.3% gain), and during RL training, thinking rewards enhance reasoning and performance (up to 3.9% gain) across diverse tasks.
- Abstract(参考訳): 大きな推論モデル(LRM)は、複雑な内部構造を持つ推論トレースに依存している。
しかし,既存の研究には,(1)質の高い推論を定義するもの,(2)長く暗黙的に構造化された推論トレースを確実に評価する方法,(3)推論最適化にそのような評価信号を使用する方法,の3つの基本的疑問に対する統一的な回答が欠けている。
これらの課題に対処するために、統一された視点を提供する。
1) ME$^2$原則を導入し,効率と有効性に関するマクロレベルとマイクロレベルに沿った推論品質を特徴付ける。
2) この原理に基づいて, 有向非巡回グラフ (DAG) として推論トレースをモデル化し, 複雑な推論構造を捉えるDAGに基づくペアワイズ評価法を開発した。
(3)本手法に基づいて,TRM-Preferenceデータセットを構築し,TRM(Thinking Reward Model)を訓練し,大規模推論の品質を評価する。
実験により、思考報酬が効果的な最適化信号となることが示された。
テスト時により良い推論を選択すると、より良い結果(最大19.3%の利得)が得られ、RLトレーニングの間、思考報酬は様々なタスクにおける推論とパフォーマンス(最大3.9%の利得)を高める。
関連論文リスト
- EffiReason-Bench: A Unified Benchmark for Evaluating and Advancing Efficient Reasoning in Large Language Models [32.041688648831794]
EffiReason-Benchは、効率的な推論手法の厳密なクロスパラダイム評価のための統一ベンチマークである。
ステップバイステップ評価を実現するため,CommonsenseQAとLogiQAの認証済みCoTアノテーションを構築した。
本稿では,不連続性を伴わないスムーズで安定した評価を提供する経済トレードオフモデルに着想を得た原則的指標であるE3-Scoreを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:14:46Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner [2.5903660653548366]
自己学習推論器(STaR)は強化学習を用いて推論ステップを自動生成する。
STaRとその変種は経験的成功を示しているが、これらの改善を説明する理論的基盤は欠如している。
この研究は、CoT推論とSTaRにおける強化学習の有効性を理解するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-31T13:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。