論文の概要: MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2602.03053v1
- Date: Tue, 03 Feb 2026 03:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.220895
- Title: MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems
- Title(参考訳): MAS-ProVe:マルチエージェントシステムのプロセス検証の理解
- Authors: Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Austin Xu, Xiaoxiao He, Yingbo Zhou, Semih Yavuz, Hao Wang, Shafiq Joty,
- Abstract要約: マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
- 参考スコア(独自算出の注目度): 59.20800753428596
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-Agent Systems (MAS) built on Large Language Models (LLMs) often exhibit high variance in their reasoning trajectories. Process verification, which evaluates intermediate steps in trajectories, has shown promise in general reasoning settings, and has been suggested as a potential tool for guiding coordination of MAS; however, its actual effectiveness in MAS remains unclear. To fill this gap, we present MAS-ProVe, a systematic empirical study of process verification for multi-agent systems (MAS). Our study spans three verification paradigms (LLM-as-a-Judge, reward models, and process reward models), evaluated across two levels of verification granularity (agent-level and iteration-level). We further examine five representative verifiers and four context management strategies, and conduct experiments over six diverse MAS frameworks on multiple reasoning benchmarks. We find that process-level verification does not consistently improve performance and frequently exhibits high variance, highlighting the difficulty of reliably evaluating partial multi-agent trajectories. Among the methods studied, LLM-as-a-Judge generally outperforms reward-based approaches, with trained judges surpassing general-purpose LLMs. We further observe a small performance gap between LLMs acting as judges and as single agents, and identify a context-length-performance trade-off in verification. Overall, our results suggest that effective and robust process verification for MAS remains an open challenge, requiring further advances beyond current paradigms. Code is available at https://github.com/Wang-ML-Lab/MAS-ProVe.
- Abstract(参考訳): LLM(Large Language Models)上に構築されたマルチエージェントシステム(MAS)は、しばしば推論軌跡に高いばらつきを示す。
軌道の中間段階を評価するプロセス検証は、一般的な推論設定において有望であり、MASの協調を導くための潜在的ツールとして提案されているが、MASにおける実際の有効性は未だ不明である。
このギャップを埋めるために,マルチエージェントシステム(MAS)におけるプロセス検証の体系的研究であるMAS-ProVeを提案する。
本研究は,3つの検証パラダイム(LLM-as-a-Judge,報酬モデル,プロセス報酬モデル)にまたがって,検証の粒度(エージェントレベル,イテレーションレベル)の2レベルにわたって評価を行った。
さらに,5つの代表的な検証手法と4つのコンテキスト管理戦略について検討し,複数の推論ベンチマーク上で6つのMASフレームワーク上で実験を行った。
プロセスレベルの検証は性能を一定に向上せず,高い分散性を示し,部分的マルチエージェントトラジェクトリを確実に評価することの難しさを浮き彫りにしている。
LLM-as-a-Judgeは一般的に報酬に基づくアプローチよりも優れており、訓練された審査員は汎用LLMを超越している。
さらに、審査員や単一エージェントとして機能するLCM間の小さなパフォーマンスギャップを観察し、検証における文脈長性能トレードオフを特定する。
以上の結果から,MASの有効かつ堅牢なプロセス検証は依然としてオープンな課題であり,現在のパラダイムを超えてさらなる進歩が必要であることが示唆された。
コードはhttps://github.com/Wang-ML-Lab/MAS-ProVeで入手できる。
関連論文リスト
- MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains [79.14584837105808]
MC-Searchは5つの代表的推論構造にまたがる長いステップワイドなアノテート推論チェーンを持つエージェントMM-RAGの最初のベンチマークである。
回答精度以外にも、MC-Searchは、品質、段階的検索、計画精度を推論するための新しいプロセスレベルメトリクスを導入している。
エージェントMM-RAGパイプラインを統一的に開発することにより、6つのMLLMをベンチマークし、過剰検索や過度検索、モダリティミスアライメント計画などの体系的な問題を明らかにする。
論文 参考訳(メタデータ) (2026-03-01T02:25:57Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Prompt Optimization via Retrieved Reasoning Assets and Multi-Agent Analysis [5.935239028627343]
スコア・アウェア・プロンプト最適化のためのマルチエージェントフレームワークであるMA-SAPOを紹介する。
従来の手法と比較して、MA-SAPOは、体系的な編集を導く構造的推論と評価結果を明示的に結合する。
評価信号を解釈可能な推論連鎖に変換することで、MA-SAPOはより透明で、監査可能で、制御可能な、迅速な改善を生成する。
論文 参考訳(メタデータ) (2025-10-18T20:21:09Z) - Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task [22.16139464288789]
現在のマルチモーダル大言語モデル(MLLM)は、一般的な視覚的推論では優れているが、抽象的視覚的推論(AVR)では未探索のままである。
既存のベンチマークでは、単一ステップの推論に重点を置いて、最終的な結果を強調しながら、推論プロセスの多段階的な性質を無視している。
我々は、様々なレベルの複雑さの推論を評価するために設計されたマルチステージベンチマークであるMultiStARを紹介する。
論文 参考訳(メタデータ) (2025-05-28T00:34:45Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。