論文の概要: Exposing Weaknesses of Large Reasoning Models through Graph Algorithm Problems
- arxiv url: http://arxiv.org/abs/2602.06319v1
- Date: Fri, 06 Feb 2026 02:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.191998
- Title: Exposing Weaknesses of Large Reasoning Models through Graph Algorithm Problems
- Title(参考訳): グラフアルゴリズム問題による大規模共振モデルの弱さの抽出
- Authors: Qifan Zhang, Jianhao Ruan, Aochuan Chen, Kang Zeng, Nuo Chen, Jing Tang, Jia Li,
- Abstract要約: 大型共振モデル (LRM) は急速に進歩している。
既存の数学、コード、常識推論のベンチマークは依然として限られている。
LRMを評価するために設計されたベンチマークであるGrAlgoBenchを紹介する。
- 参考スコア(独自算出の注目度): 17.425682208528443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have advanced rapidly; however, existing benchmarks in mathematics, code, and common-sense reasoning remain limited. They lack long-context evaluation, offer insufficient challenge, and provide answers that are difficult to verify programmatically. We introduce GrAlgoBench, a benchmark designed to evaluate LRMs through graph algorithm problems. Such problems are particularly well suited for probing reasoning abilities: they demand long-context reasoning, allow fine-grained control of difficulty levels, and enable standardized, programmatic evaluation. Across nine tasks, our systematic experiments reveal two major weaknesses of current LRMs. First, accuracy deteriorates sharply as context length increases, falling below 50% once graphs exceed 120 nodes. This degradation is driven by frequent execution errors, weak memory, and redundant reasoning. Second, LRMs suffer from an over-thinking phenomenon, primarily caused by extensive yet largely ineffective self-verification, which inflates reasoning traces without improving correctness. By exposing these limitations, GrAlgoBench establishes graph algorithm problems as a rigorous, multidimensional, and practically relevant testbed for advancing the study of reasoning in LRMs. Code is available at https://github.com/Bklight999/GrAlgoBench.
- Abstract(参考訳): 大規模推論モデル(LRM)は急速に進歩しているが、数学、コード、常識推論の既存のベンチマークは依然として限られている。
長期のコンテキスト評価が欠如し、不十分な課題を提供し、プログラムで検証するのが難しい回答を提供する。
GrAlgoBenchは、グラフアルゴリズムの問題を通してLEMを評価するために設計されたベンチマークである。
このような問題は特に、長期コンテキスト推論を要求し、難易度をきめ細かな制御を可能にし、標準化されたプログラムによる評価を可能にする、推論能力の探索に適している。
9つの課題にまたがって、我々の系統的な実験は、現在のLEMの2つの大きな弱点を明らかにした。
まず、コンテキスト長が増加するにつれて精度が急激に低下し、グラフが120ノードを超えると50%以下になる。
この劣化は、頻繁な実行エラー、弱いメモリ、冗長な推論によって引き起こされる。
第二に、LRMは過度に考え過ぎた現象に悩まされ、主に広範囲に反効する自己検証によって引き起こされ、それは正しさを損なうことなく推論の痕跡を膨らませる。
これらの制限を明らかにすることで、GrAlgoBench は LRM における推論の研究を進めるための厳密で多次元的で実用的なテストベッドとしてグラフアルゴリズムの問題を定めている。
コードはhttps://github.com/Bklight999/GrAlgoBenchで入手できる。
関連論文リスト
- Reasoning Models Reason Well, Until They Don't [8.434177922951582]
大規模言語モデル(LLM)は推論タスクの大幅な進歩を示している。
大型推論モデル(LRM)のレンズを通してこれらの知見を再考する。
LRMは、ステップバイステップの議論と自己検証のためのインセンティブで微調整された。
論文 参考訳(メタデータ) (2025-10-25T17:28:38Z) - On the Self-awareness of Large Reasoning Models' Capability Boundaries [46.74014595035246]
本稿では,Large Reasoning Models (LRM) が機能境界の自己認識性を持っているかを検討する。
ブラックボックスモデルでは、推論式は境界信号を明らかにし、解決不可能な問題に対する信頼軌道は加速するが、解決不可能な問題に対する収束不確実軌道は加速する。
ホワイトボックスモデルでは,最後の入力トークンの隠れ状態が境界情報を符号化し,解答可能かつ解答不能な問題を推論開始前に線形分離可能であることを示す。
論文 参考訳(メタデータ) (2025-09-29T12:40:47Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Controlling Thinking Speed in Reasoning Models [57.14541748751654]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。
本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。
提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文 参考訳(メタデータ) (2025-07-04T16:41:06Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。