論文の概要: FoE: Forest of Errors Makes the First Solution the Best in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.02967v1
- Date: Fri, 03 Apr 2026 11:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.455367
- Title: FoE: Forest of Errors Makes the First Solution the Best in Large Reasoning Models
- Title(参考訳): エラーの森」が大きめの推論モデルでベストに
- Authors: Kehan Jiang, Haonan Dong, Zhaolu Kang, Zhengzhou Zhu, Guojie Song,
- Abstract要約: The First is The Bestの現象について検討し、代替ソリューションは単に最適ではないだけでなく、有害である可能性がある。
本稿では,第1のソリューションにおけるFoE成長を抑制するRefining First,第2の2つのコンポーネントからなる自己誘導型効率的な推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.994880611133548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Reasoning Models (LRMs) like DeepSeek-R1 have demonstrated remarkable success in complex reasoning tasks, exhibiting human-like patterns in exploring multiple alternative solutions. Upon closer inspection, however, we uncover a surprising phenomenon: The First is The Best, where alternative solutions are not merely suboptimal but potentially detrimental. This observation challenges widely accepted test-time scaling laws, leading us to hypothesize that errors within the reasoning path scale concurrently with test time. Through comprehensive empirical analysis, we characterize errors as a forest-structured Forest of Errors (FoE) and conclude that FoE makes the First the Best, which is underpinned by rigorous theoretical analysis. Leveraging these insights, we propose RED, a self-guided efficient reasoning framework comprising two components: I) Refining First, which suppresses FoE growth in the first solution; and II) Discarding Subs, which prunes subsequent FoE via dual-consistency. Extensive experiments across five benchmarks and six backbone models demonstrate that RED outperforms eight competitive baselines, achieving performance gains of up to 19.0% while reducing token consumption by 37.7% ~ 70.4%. Moreover, comparative experiments on FoE metrics shed light on how RED achieves effectiveness.
- Abstract(参考訳): 近年のDeepSeek-R1のようなLarge Reasoning Models(LRM)は、複雑な推論タスクにおいて顕著な成功を示し、複数の代替ソリューションを探索する上で、人間のようなパターンを示している。
The First is The Best – 代替ソリューションは、単に最適ではないだけでなく、有害な可能性がある。
この観察は、テスト時間のスケーリング法則を広く受け入れることに挑戦し、推論経路内のエラーがテスト時間と同時にスケールするという仮説を立てる結果となった。
総合的な実証分析を通じて,エラーを森林構造森林(FoE)として特徴付け,厳密な理論的分析を基盤としたFoEが最善を尽くしていると結論づける。
これらの知見を生かして、第1のソリューションにおけるFoE成長を抑制するRefining Firstと、第2のソリューションにおけるFoEの成長を抑制するDisvearding Subsという2つのコンポーネントからなる自己誘導型効率的な推論フレームワークであるREDを提案する。
5つのベンチマークと6つのバックボーンモデルにわたる大規模な実験により、REDは8つの競争基準を上回り、最大19.0%のパフォーマンス向上を達成し、トークン消費を37.7%から70.4%削減した。
さらに、FoEメトリクスの比較実験では、REDが有効性を達成する方法が明らかになりました。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - CAMEL: Confidence-Gated Reflection for Reward Modeling [26.908515245229747]
CAMELは、まず軽量なシングルトークン選択決定を行う信頼度の高いリフレクションフレームワークである。
提案手法は,プレフィックス強化による強化学習を通じて学習し,そのモデルに様々な初期判定を施し,真の修正を促す。
実証的に、CAMELは82.9%の平均精度で広く使用されている3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-24T08:20:08Z) - Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness [12.513874407270142]
我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
論文 参考訳(メタデータ) (2025-09-09T18:36:02Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。