論文の概要: Reasoning Models Reason Well, Until They Don't
- arxiv url: http://arxiv.org/abs/2510.22371v1
- Date: Sat, 25 Oct 2025 17:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.114031
- Title: Reasoning Models Reason Well, Until They Don't
- Title(参考訳): Reasoning Models Reason's Well(動画あり)
- Authors: Revanth Rameshkumar, Jimson Huang, Yunxin Sun, Fei Xia, Abulhair Saparov,
- Abstract要約: 大規模言語モデル(LLM)は推論タスクの大幅な進歩を示している。
大型推論モデル(LRM)のレンズを通してこれらの知見を再考する。
LRMは、ステップバイステップの議論と自己検証のためのインセンティブで微調整された。
- 参考スコア(独自算出の注目度): 8.434177922951582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown significant progress in reasoning tasks. However, recent studies show that transformers and LLMs fail catastrophically once reasoning problems exceed modest complexity. We revisit these findings through the lens of large reasoning models (LRMs) -- LLMs fine-tuned with incentives for step-by-step argumentation and self-verification. LRM performance on graph and reasoning benchmarks such as NLGraph seem extraordinary, with some even claiming they are capable of generalized reasoning and innovation in reasoning-intensive fields such as mathematics, physics, medicine, and law. However, by more carefully scaling the complexity of reasoning problems, we show existing benchmarks actually have limited complexity. We develop a new dataset, the Deep Reasoning Dataset (DeepRD), along with a generative process for producing unlimited examples of scalable complexity. We use this dataset to evaluate model performance on graph connectivity and natural language proof planning. We find that the performance of LRMs drop abruptly at sufficient complexity and do not generalize. We also relate our LRM results to the distributions of the complexities of large, real-world knowledge graphs, interaction graphs, and proof datasets. We find the majority of real-world examples fall inside the LRMs' success regime, yet the long tails expose substantial failure potential. Our analysis highlights the near-term utility of LRMs while underscoring the need for new methods that generalize beyond the complexity of examples in the training distribution.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクの大幅な進歩を示している。
しかし、最近の研究では、トランスフォーマーとLSMは、問題の原因がわずかに複雑さを超えると破滅的に失敗することを示している。
我々は、これらの発見を、大きな推論モデル(LRM)のレンズを通して再考する -- ステップバイステップの議論と自己検証のためのインセンティブを微調整したLLM。
グラフや NLGraph などの推論ベンチマークにおける LRM のパフォーマンスは、数学、物理学、医学、法則といった推論集約的な分野において、一般化された推論と革新が可能であると主張する者もいる。
しかし、推論問題の複雑さをより慎重にスケーリングすることで、既存のベンチマークは実際は複雑さが限られていることがわかる。
新しいデータセットであるDeep Reasoning Dataset(DeepRD)を開発し、拡張性のある複雑性の無限例を生成する生成プロセスを作成します。
このデータセットを用いて、グラフ接続性および自然言語証明計画におけるモデル性能を評価する。
その結果, LRMの性能は急激に低下し, 一般化しないことがわかった。
また、LRMの結果と、大規模で実世界の知識グラフ、相互作用グラフ、証明データセットの複雑さの分布を関連づける。
現実世界のほとんどの例は LRM の成功体制の中に収まるが、長い尾は重大な失敗の可能性を秘めている。
本分析では, LRMの短期的有用性を強調しつつ, トレーニング分布における例の複雑さを超えて一般化する新たな手法の必要性を強調した。
関連論文リスト
- Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Language Models Coupled with Metacognition Can Outperform Reasoning Models [32.32646975975768]
大規模言語モデル(LLM)は、様々な推論タスクの速度と適応性に優れる。
LRMは複雑なステップバイステップ推論のために特別に設計されている。
SOFAI-LM はメタ認知により遅いがより強力な LRM と高速な LLM を協調する。
論文 参考訳(メタデータ) (2025-08-25T12:19:57Z) - Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations [11.503915439591735]
大きな推論モデル(LRM)は、複雑な推論タスクを扱う最終回答に到達する前にステップバイステップの思考プロセスを出力するように設計されている。
最近の実証研究は、明示的な推論のないLLMが、低または高複雑性のタスクにおいて実際にLRMよりも優れていることを示唆している。
ツール拡張の際, LRMの限界が持続するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-23T17:04:20Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - Large Language and Reasoning Models are Shallow Disjunctive Reasoners [15.56445409535547]
大規模言語モデル(LLM)は、体系的な推論に苦慮している。
本稿では,定性的空間的および時間的推論のための体系的関係合成を必要とするタスクに焦点をあてる。
ゼロショット LRM はシングルパス推論タスクでは LLM よりも優れていますが,マルチパス設定では苦労しています。
論文 参考訳(メタデータ) (2025-03-30T15:41:55Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。