論文の概要: Reasoning Models Reason Well, Until They Don't
- arxiv url: http://arxiv.org/abs/2510.22371v1
- Date: Sat, 25 Oct 2025 17:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.114031
- Title: Reasoning Models Reason Well, Until They Don't
- Title(参考訳): Reasoning Models Reason's Well(動画あり)
- Authors: Revanth Rameshkumar, Jimson Huang, Yunxin Sun, Fei Xia, Abulhair Saparov,
- Abstract要約: 大規模言語モデル(LLM)は推論タスクの大幅な進歩を示している。
大型推論モデル(LRM)のレンズを通してこれらの知見を再考する。
LRMは、ステップバイステップの議論と自己検証のためのインセンティブで微調整された。
- 参考スコア(独自算出の注目度): 8.434177922951582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown significant progress in reasoning tasks. However, recent studies show that transformers and LLMs fail catastrophically once reasoning problems exceed modest complexity. We revisit these findings through the lens of large reasoning models (LRMs) -- LLMs fine-tuned with incentives for step-by-step argumentation and self-verification. LRM performance on graph and reasoning benchmarks such as NLGraph seem extraordinary, with some even claiming they are capable of generalized reasoning and innovation in reasoning-intensive fields such as mathematics, physics, medicine, and law. However, by more carefully scaling the complexity of reasoning problems, we show existing benchmarks actually have limited complexity. We develop a new dataset, the Deep Reasoning Dataset (DeepRD), along with a generative process for producing unlimited examples of scalable complexity. We use this dataset to evaluate model performance on graph connectivity and natural language proof planning. We find that the performance of LRMs drop abruptly at sufficient complexity and do not generalize. We also relate our LRM results to the distributions of the complexities of large, real-world knowledge graphs, interaction graphs, and proof datasets. We find the majority of real-world examples fall inside the LRMs' success regime, yet the long tails expose substantial failure potential. Our analysis highlights the near-term utility of LRMs while underscoring the need for new methods that generalize beyond the complexity of examples in the training distribution.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクの大幅な進歩を示している。
しかし、最近の研究では、トランスフォーマーとLSMは、問題の原因がわずかに複雑さを超えると破滅的に失敗することを示している。
我々は、これらの発見を、大きな推論モデル(LRM)のレンズを通して再考する -- ステップバイステップの議論と自己検証のためのインセンティブを微調整したLLM。
グラフや NLGraph などの推論ベンチマークにおける LRM のパフォーマンスは、数学、物理学、医学、法則といった推論集約的な分野において、一般化された推論と革新が可能であると主張する者もいる。
しかし、推論問題の複雑さをより慎重にスケーリングすることで、既存のベンチマークは実際は複雑さが限られていることがわかる。
新しいデータセットであるDeep Reasoning Dataset(DeepRD)を開発し、拡張性のある複雑性の無限例を生成する生成プロセスを作成します。
このデータセットを用いて、グラフ接続性および自然言語証明計画におけるモデル性能を評価する。
その結果, LRMの性能は急激に低下し, 一般化しないことがわかった。
また、LRMの結果と、大規模で実世界の知識グラフ、相互作用グラフ、証明データセットの複雑さの分布を関連づける。
現実世界のほとんどの例は LRM の成功体制の中に収まるが、長い尾は重大な失敗の可能性を秘めている。
本分析では, LRMの短期的有用性を強調しつつ, トレーニング分布における例の複雑さを超えて一般化する新たな手法の必要性を強調した。
関連論文リスト
- Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Language Models Coupled with Metacognition Can Outperform Reasoning Models [32.32646975975768]
大規模言語モデル(LLM)は、様々な推論タスクの速度と適応性に優れる。
LRMは複雑なステップバイステップ推論のために特別に設計されている。
SOFAI-LM はメタ認知により遅いがより強力な LRM と高速な LLM を協調する。
論文 参考訳(メタデータ) (2025-08-25T12:19:57Z) - Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations [11.503915439591735]
大きな推論モデル(LRM)は、複雑な推論タスクを扱う最終回答に到達する前にステップバイステップの思考プロセスを出力するように設計されている。
最近の実証研究は、明示的な推論のないLLMが、低または高複雑性のタスクにおいて実際にLRMよりも優れていることを示唆している。
ツール拡張の際, LRMの限界が持続するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-23T17:04:20Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T18:32:35Z) - Large Language and Reasoning Models are Shallow Disjunctive Reasoners [15.56445409535547]
大規模言語モデル(LLM)は、体系的な推論に苦慮している。
本稿では,定性的空間的および時間的推論のための体系的関係合成を必要とするタスクに焦点をあてる。
ゼロショット LRM はシングルパス推論タスクでは LLM よりも優れていますが,マルチパス設定では苦労しています。
論文 参考訳(メタデータ) (2025-03-30T15:41:55Z) - Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners [30.195361623027313]
Process Reward Models (PRMs) は、段階的なフィードバックを提供することで推論を強化するという、例外的な約束を証明している。
本稿では,グラフ推論問題に対して,ステップワイドラベルを用いた最大のデータセットであるGraphSILOを紹介する。
グラフ推論問題のために設計された最初のPRMであるGraphPRMをトレーニングし、2つのキー設定でその有効性を評価する。
論文 参考訳(メタデータ) (2025-03-02T10:39:40Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。