論文の概要: AlgBench: To What Extent Do Large Reasoning Models Understand Algorithms?
- arxiv url: http://arxiv.org/abs/2601.04996v2
- Date: Fri, 09 Jan 2026 04:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 13:49:32.577688
- Title: AlgBench: To What Extent Do Large Reasoning Models Understand Algorithms?
- Title(参考訳): AlgBench: 大規模な推論モデルはアルゴリズムを理解できないのか?
- Authors: Henan Sun, Kaichi Yu, Yuyao Wang, Bowen Liu, Xunkai Li, Rong-Hua Li, Nuo Chen, Jia Li,
- Abstract要約: 本稿では,アルゴリズム中心のパラダイムの下でLarge Reasoning Models(LRMs)を評価する専門家によるベンチマークであるAlgBenchを提案する。
AlgBenchは、ACMアルゴリズムの専門家によって構築された27のアルゴリズムにまたがる3000以上の元の問題で構成されている。
先進的なLRM(Gemini-3-Pro、DeepSeek-v3.2- Speciale、GPT-o3)に関する実証的な評価は、かなりの性能を示している。
- 参考スコア(独自算出の注目度): 21.836954662380094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning ability has become a central focus in the advancement of Large Reasoning Models (LRMs). Although notable progress has been achieved on several reasoning benchmarks such as MATH500 and LiveCodeBench, existing benchmarks for algorithmic reasoning remain limited, failing to answer a critical question: Do LRMs truly master algorithmic reasoning? To answer this question, we propose AlgBench, an expert-curated benchmark that evaluates LRMs under an algorithm-centric paradigm. AlgBench consists of over 3,000 original problems spanning 27 algorithms, constructed by ACM algorithmic experts and organized under a comprehensive taxonomy, including Euclidean-structured, non-Euclidean-structured, non-optimized, local-optimized, global-optimized, and heuristic-optimized categories. Empirical evaluations on leading LRMs (e.g., Gemini-3-Pro, DeepSeek-v3.2-Speciale and GPT-o3) reveal substantial performance heterogeneity: while models perform well on non-optimized tasks (up to 92%), accuracy drops sharply to around 49% on globally optimized algorithms such as dynamic programming. Further analysis uncovers \textbf{strategic over-shifts}, wherein models prematurely abandon correct algorithmic designs due to necessary low-entropy tokens. These findings expose fundamental limitations of problem-centric reinforcement learning and highlight the necessity of an algorithm-centric training paradigm for robust algorithmic reasoning.
- Abstract(参考訳): 推論能力は、Large Reasoning Models (LRMs) の発展に重点を置いている。
MATH500やLiveCodeBenchといったいくつかの推論ベンチマークでは顕著な進歩があったが、アルゴリズム推論の既存のベンチマークは依然として限定的であり、重要な疑問に答えることができなかった。
この問題に対処するために,アルゴリズム中心のパラダイムの下でLEMを評価する専門家によるベンチマークであるAlgBenchを提案する。
AlgBenchは、ACMアルゴリズムの専門家によって構築され、ユークリッド構造、非ユークリッド構造、非最適化、局所最適化、グローバル最適化、ヒューリスティック最適化のカテゴリを含む包括的な分類の下で組織された27のアルゴリズムにまたがる3000以上の元の問題からなる。
先行LRM(例: Gemini-3-Pro、DeepSeek-v3.2-Speciale、GPT-o3)に関する実証的な評価では、モデルが最適化されていないタスク(最大92%)でうまく機能する一方で、動的プログラミングのようなグローバルに最適化されたアルゴリズムでは、精度が49%程度まで急激に低下する。
さらなる分析により \textbf{strategic over-shifts {\displaystyle \textbf{strategic over-shifts} が明らかになった。
これらの知見は、問題中心強化学習の基本的限界を明らかにし、堅牢なアルゴリズム推論のためのアルゴリズム中心学習パラダイムの必要性を強調している。
関連論文リスト
- GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation [48.04396968707237]
幾何学的問題解決における4つの推論レベルを特徴とする階層型ベンチマークであるGeoBenchを提案する。
属性抽出から論理的誤り訂正まで,様々な機能を体系的に評価する。
これらの結果はGeoBenchを総合的なベンチマークとして確立し、幾何学的問題解決システムを開発するための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-30T09:56:37Z) - Position: We Need An Algorithmic Understanding of Generative AI [7.425924654036041]
本稿では,LLMが学習・使用するアルゴリズムを体系的に研究するためのフレームワークであるAlgEvalを提案する。
AlgEvalは、潜在表現、注意、推論時間計算に反映されるアルゴリズムプリミティブと、タスク固有の問題を解決するアルゴリズム構成を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2025-07-10T08:38:47Z) - A*-Decoding: Token-Efficient Inference Scaling [0.0]
推論時間スケーリングは、言語モデルのパフォーマンスを改善するためのパラメータスケーリングの強力な代替手段として登場した。
A*-decoding(A*-decoding)は、A*検索アルゴリズムに基づいて、固定された計算予算を最適に活用する検索ベースの推論時戦略である。
我々の研究は、より効率的でスケーラブルな言語モデルのデプロイメントにおける将来的な進歩を指して、思慮深い推論時戦略がSLMの推論をいかに向上させるかを実証している。
論文 参考訳(メタデータ) (2025-05-19T19:19:48Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - A Generalized Evolutionary Metaheuristic (GEM) Algorithm for Engineering Optimization [1.6589012298747952]
近年の大きなトレンドは、自然に着想を得たメタヒュースティックアルゴリズム(NIMA)の利用である。
文献には540以上のアルゴリズムがあり、異なるアルゴリズムの探索機構を理解するための統一的なフレームワークはない。
20以上の異なるアルゴリズムを統一する一般化された進化的メタヒューリスティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-02T09:55:15Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - A Simple Evolutionary Algorithm for Multi-modal Multi-objective
Optimization [0.0]
マルチモーダル・多目的最適化問題(MMOP)を解くための定常進化アルゴリズムを提案する。
本報告では,1000関数評価の低計算予算を用いて,様々なテストスイートから得られた21個のMMOPの性能について報告する。
論文 参考訳(メタデータ) (2022-01-18T03:31:11Z) - Adaptive Discretization in Online Reinforcement Learning [9.560980936110234]
離散化に基づくアルゴリズムを設計する際の2つの大きな疑問は、離散化をどのように生成し、いつそれを洗練するかである。
オンライン強化学習のための木に基づく階層分割手法の統一的理論的解析を行う。
我々のアルゴリズムは操作制約に容易に適応し、我々の理論は3つの面のそれぞれに明示的な境界を与える。
論文 参考訳(メタデータ) (2021-10-29T15:06:15Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。