論文の概要: MASPRM: Multi-Agent System Process Reward Model
- arxiv url: http://arxiv.org/abs/2510.24803v1
- Date: Tue, 28 Oct 2025 00:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.580513
- Title: MASPRM: Multi-Agent System Process Reward Model
- Title(参考訳): MASPRM:マルチエージェントシステムプロセスリワードモデル
- Authors: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong,
- Abstract要約: マルチエージェントシステム(MAS)は強いテスト時間性能を要求する。
MASPRM(Multi-Agent System Process Reward Model)を提案する。
アクションごと、エージェントごとの値を部分的なエージェント間転写に割り当てる。
- 参考スコア(独自算出の注目度): 8.539789622437162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by $+30.7$ and $+22.9$ points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding $8.4$ EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM
- Abstract(参考訳): マルチエージェントシステム(Multi-Agent Systems:MAS)の実践的展開には、強いテスト時間性能、推論時間探索を導くモチベーション手法、品質向上のために計算に選択的に費やすことが必要である。
MASPRM(Multi-Agent System Process Reward Model)を提案する。
アクションごと、エージェントごとの値を部分的なエージェント間転写に割り当て、推論時コントローラとして機能する。
MASPRMは、ステップレベルのヒューマンアノテーションを必要とせずに、マルチエージェントのMonte Carlo Tree Search (MCTS)ロールアウトからトレーニングされ、ローカルターゲットへのリターンを伝搬する。
推論において、MASPRMはステップレベルのビームサーチとMCTSをガイドし、将来性のある分岐に焦点を合わせ、早期に刈り取る。
GSM8K と MATH では、MASPRM 誘導復号と結果報酬モデル (ORM) が最終回答に適用され、1つのストレートスルー MAS パスに対して、それぞれ$+30.7$ と$+22.9$ の正確なマッチング (EM) を改善する。
GSM8Kで訓練されたMASPRMは、ゼロショットをMATHに再トレーニングせずに転送し、同じ予算で8.4ドルのEMポイントを加算した。
MASPRMは、エージェントごとの進捗を推定し、検証器スタイルのデコーダを補完するプラグイン値モデルであり、より信頼性が高く、コンピュータ対応のマルチエージェント推論を可能にする。
コード:https://github.com/milad1378yz/MASPRM
関連論文リスト
- MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision [27.571090189791303]
完全に自動化されたスケーラブルなフレームワーク内でトレーニングされたプロセス報酬モデルであるMM-PRMを提案する。
我々はまず,多様な数学的推論データに基づいて訓練された強力なマルチモーダルモデルMM-Policyを構築した。
人間のラベル付けなしで700万以上のステップレベルのアノテーションを生成します。
論文 参考訳(メタデータ) (2025-05-19T17:55:08Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Process Reward Models for LLM Agents: Practical Framework and Directions [10.986389591866617]
エージェントプロセス・リワード・モデル (AgentPRM) を導入する。
InversePRMを提案する。これは、明示的な結果の監督なしに、デモから直接プロセス報酬を学習する。
ALFWorldベンチマークで評価したところ、AgentPRMとInversePRMで訓練された3Bモデルは、強力なGPT-4oベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-14T17:34:28Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Multi-Agent Automated Machine Learning [54.14038920246645]
自動機械学習(AutoML)におけるモジュールの共同最適化のためのマルチエージェント自動機械学習(MA2ML)を提案する。
MA2MLはモジュール間の協力を強化するために各エージェントにクレジットを明示的に割り当て、検索効率を向上させるために政治外の学習を取り入れている。
実験により、MA2MLは計算コストの制約の下でImageNet上で最先端のトップ1の精度が得られることが示された。
論文 参考訳(メタデータ) (2022-10-17T13:32:59Z) - Multi-Agent Reinforcement Learning is a Sequence Modeling Problem [33.679936867612525]
マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
論文 参考訳(メタデータ) (2022-05-30T09:39:45Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。