論文の概要: ReEfBench: Quantifying the Reasoning Efficiency of LLMs
- arxiv url: http://arxiv.org/abs/2601.03550v1
- Date: Wed, 07 Jan 2026 03:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.182425
- Title: ReEfBench: Quantifying the Reasoning Efficiency of LLMs
- Title(参考訳): ReEfBench: LLMの推論効率の定量化
- Authors: Zhizhang Fu, Yuancheng Gu, Chenkai Hu, Hanmeng Liu, Yue Zhang,
- Abstract要約: 非侵襲的で包括的プロセス中心の推論評価のための新しいニューロシンボリックフレームワークを提案する。
分析の結果,拡張トークン生成は深い推論の前提条件ではないことが明らかとなった。
- 参考スコア(独自算出の注目度): 9.462320482705508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling has enabled Large Language Models (LLMs) to tackle complex reasoning, yet the limitations of current Chain-of-Thought (CoT) evaluation obscures whether performance gains stem from genuine reasoning or mere verbosity. To address this, (1) we propose a novel neuro-symbolic framework for the non-intrusive, comprehensive process-centric evaluation of reasoning. (2) Through this lens, we identify four distinct behavioral prototypes and diagnose the failure modes. (3) We examine the impact of inference mode, training strategy, and model scale. Our analysis reveals that extended token generation is not a prerequisite for deep reasoning. Furthermore, we reveal critical constraints: mixing long and short CoT data in training risks in premature saturation and collapse, while distillation into smaller models captures behavioral length but fails to replicate logical efficacy due to intrinsic capacity limits.
- Abstract(参考訳): テスト時のスケーリングにより、LLM(Large Language Models)は複雑な推論に対処することが可能になったが、現在のChain-of-Thought(CoT)評価の限界は、パフォーマンスの向上が真の推論によるものなのか、単なる冗長性によるものなのかを曖昧にしている。
そこで本研究では,非侵襲的,包括的プロセス中心の推論評価のための新しいニューロシンボリック・フレームワークを提案する。
2) このレンズを用いて, 4つの異なる動作プロトタイプを同定し, 故障モードの診断を行う。
(3)推論モード,トレーニング戦略,モデルスケールの影響について検討した。
分析の結果,拡張トークン生成は深い推論の前提条件ではないことが明らかとなった。
さらに, 早期飽和と崩壊の訓練リスクにおいて, 長いCoTデータと短いCoTデータを混合する一方で, より小さなモデルへの蒸留は, 動作長を捕捉するが, 内在容量制限による論理的効果の再現には失敗する,という重要な制約を明らかにした。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - A Comment On "The Illusion of Thinking": Reframing the Reasoning Cliff as an Agentic Gap [0.39073867995073247]
我々は、観測された失敗は基本的な認知境界の証拠ではなく、システムレベルの制約の予測可能な結果であると主張している。
当初、テキストのみの世代に限定してパズルを宣言することは不可能であると宣言されたモデルは、現在ではエージェントツールを使用して解決するだけでなく、それまで克服できなかった難易度をはるかに超える複雑さを習得している。
論文 参考訳(メタデータ) (2025-06-23T17:14:21Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。