論文の概要: PRIME: Policy-Reinforced Iterative Multi-agent Execution for Algorithmic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.11170v1
- Date: Mon, 19 Jan 2026 07:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.720984
- Title: PRIME: Policy-Reinforced Iterative Multi-agent Execution for Algorithmic Reasoning in Large Language Models
- Title(参考訳): PRIME:大規模言語モデルにおけるアルゴリズム推論のためのポリシー強化型反復型マルチエージェント実行
- Authors: Jiawei Xu, Zhenyu Yu, Ziqian Bi, Minh Duc Pham, Xiaoyi Qu, Danyang Zhang,
- Abstract要約: 大規模言語モデルは様々な推論タスクにまたがって顕著な能力を示してきたが、アルゴリズム的推論のパフォーマンスは依然として限られている。
本稿では,3つの専門エージェントからなるフレームワークPRIME,ステップバイステップ推論のエグゼキュータ,制約チェックの検証器,バックトラック制御のコーディネータを提案する。
これまでで最大のアルゴリズム推論ベンチマークであるPRIME-Benchを導入し,12のカテゴリにわたる86のタスクと51,600のインスタンスを比較検討した。
- 参考スコア(独自算出の注目度): 5.598141218271656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated remarkable capabilities across diverse reasoning tasks, yet their performance on algorithmic reasoning remains limited. To handle this limitation, we propose PRIME (Policy-Reinforced Iterative Multi-agent Execution), a framework comprising three specialized agents, an executor for step-by-step reasoning, a verifier for constraint checking, and a coordinator for backtracking control, optimized through group relative policy optimization. For comprehensive evaluation, we introduce PRIME-Bench, the largest algorithmic reasoning benchmark to date, comprising 86 tasks across 12 categories with 51,600 instances. Tasks span sorting algorithms, graph and tree structures, automata and state machines, symbolic reasoning, and constraint-based puzzles, with execution traces reaching over one million steps. Compared to baseline approach, PRIME improves average accuracy from 26.8% to 93.8%, a 250% relative gain. The largest improvements occur on tasks requiring sustained state tracking, with Turing machine simulation improving from 9% to 92% and long division from 16% to 94%. Ablation studies identify iterative verification as the primary contributor, preventing the error propagation that causes baseline approaches to fail catastrophically. Analysis across model scales (8B-120B parameters) reveals that smaller models benefit disproportionately, achieving accuracy comparable to models 8x larger.
- Abstract(参考訳): 大規模言語モデルは様々な推論タスクにまたがって顕著な能力を示してきたが、アルゴリズム的推論のパフォーマンスは依然として限られている。
この制限に対処するために,3つの特殊エージェント,ステップバイステップ推論の実行器,制約チェックの検証器,バックトラック制御のコーディネータからなるPRIME(Policy-Reinforced Iterative Multi-agent Execution)を提案する。
これまでで最大のアルゴリズム推論ベンチマークであるPRIME-Benchを導入し,12のカテゴリにわたる86のタスクと51,600のインスタンスを比較検討した。
タスクはソートアルゴリズム、グラフとツリー構造、オートマタとステートマシン、シンボリック推論、制約ベースのパズルにまたがっており、実行トレースは100万以上のステップに到達している。
ベースラインアプローチと比較して、PRIMEは平均精度を26.8%から93.8%に改善し、相対利得は250%である。
チューリングマシンのシミュレーションは9%から92%に改善され、長い分割は16%から94%に改善された。
アブレーション研究では、反復検証が主要な貢献者であり、ベースラインアプローチが破滅的に失敗する原因となるエラーの伝播を防ぐ。
モデルスケールの解析(8B-120Bパラメータ)により、より小さなモデルでは不均等に利益が得られ、精度は8倍になる。
関連論文リスト
- Chain of Simulation: A Dual-Mode Reasoning Framework for Large Language Models with Dynamic Problem Routing [0.0]
Chain of Simulation(CoS)は、動的に問題を特別な推論戦略にルーティングする新しいデュアルモード推論フレームワークである。
CoSは、数学的問題に対する自己整合性を伴う計算フロー、空間的推論のための表現を伴う記号的状態追跡、マルチホップ推論のためのハイブリッド事実抽出という3つの異なる推論モードを採用している。
論文 参考訳(メタデータ) (2026-02-02T21:44:01Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - Complexity Agnostic Recursive Decomposition of Thoughts [3.3864434164156934]
CARD(Complexity Agnostic Recursive Decomposition)は、生成前の問題を予測し、それに応じて分解を適応するフレームワークである。
CARDはGSM8Kで81.4%から89.2%の精度を実現し、トークンコストは固定された分解ベースラインに比べて1.88倍から2.40倍に削減された。
論文 参考訳(メタデータ) (2025-12-10T06:03:42Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。