論文の概要: PEAR: Planner-Executor Agent Robustness Benchmark
- arxiv url: http://arxiv.org/abs/2510.07505v1
- Date: Wed, 08 Oct 2025 20:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.712102
- Title: PEAR: Planner-Executor Agent Robustness Benchmark
- Title(参考訳): PEAR: Planner-Executor Agent Robustness Benchmark
- Authors: Shen Dong, Mingxuan Zhang, Pengfei He, Li Ma, Bhavani Thuraisingham, Hui Liu, Yue Xing,
- Abstract要約: PEAR(Planner-executor MAS)の実用性と脆弱性を体系的に評価するためのベンチマーク)を紹介する。
本ベンチマークでは,実践的かつ広く採用されている設計であるプランナー・エグゼクタ構造に注目した。
弱いプランナーは、弱い実行者よりも全体的なクリーンなタスク性能を著しく低下させる。
- 参考スコア(独自算出の注目度): 14.595949337897444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based Multi-Agent Systems (MAS) have emerged as a powerful paradigm for tackling complex, multi-step tasks across diverse domains. However, despite their impressive capabilities, MAS remain susceptible to adversarial manipulation. Existing studies typically examine isolated attack surfaces or specific scenarios, leaving a lack of holistic understanding of MAS vulnerabilities. To bridge this gap, we introduce PEAR, a benchmark for systematically evaluating both the utility and vulnerability of planner-executor MAS. While compatible with various MAS architectures, our benchmark focuses on the planner-executor structure, which is a practical and widely adopted design. Through extensive experiments, we find that (1) a weak planner degrades overall clean task performance more severely than a weak executor; (2) while a memory module is essential for the planner, having a memory module for the executor does not impact the clean task performance; (3) there exists a trade-off between task performance and robustness; and (4) attacks targeting the planner are particularly effective at misleading the system. These findings offer actionable insights for enhancing the robustness of MAS and lay the groundwork for principled defenses in multi-agent settings.
- Abstract(参考訳): 大規模言語モデル (LLM) ベースのマルチエージェントシステム (MAS) は、多様なドメインにまたがる複雑なマルチステップタスクに取り組むための強力なパラダイムとして登場した。
しかし、その優れた能力にもかかわらず、MASは敵の操作に影響を受けやすいままである。
既存の研究は通常、孤立した攻撃面や特定のシナリオを調べ、MAS脆弱性の全体的な理解の欠如を残している。
このギャップを埋めるために,プランナー・エグゼキュータMASの実用性と脆弱性の両方を体系的に評価するベンチマークであるPEARを導入する。
各種MASアーキテクチャと互換性はあるものの,我々のベンチマークでは,実用的で広く採用されている設計であるプランナー・エグゼキュータ構造に注目している。
より広範な実験により,(1)弱いプランナーは,弱い実行者よりも全体的なクリーンなタスク性能を著しく低下させ,(2)メモリモジュールはプランナーにとって不可欠であるが,実行者にとってメモリモジュールはクリーンなタスク性能に影響を与えないこと,(3)タスク性能と堅牢性の間にトレードオフが存在すること,(4)プランナーをターゲットにした攻撃は,システムを誤解させるのに特に有効であることがわかった。
これらの知見は、MASの堅牢性を高めるための実用的な洞察を与え、マルチエージェント環境での原則的防御の基礎を築いた。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Profile-Aware Maneuvering: A Dynamic Multi-Agent System for Robust GAIA Problem Solving by AWorld [20.01452161733642]
我々はAWorldフレームワークで動的マルチエージェントシステム(MAS)を提案する。
実行エージェントは、オンデマンドの動的操作を提供するガードエージェントによって監督される。
本システムは,GAIAの高名なリーダボード上でのオープンソースプロジェクトの中で,第1位を達成している。
論文 参考訳(メタデータ) (2025-08-13T15:46:25Z) - Aime: Towards Fully-Autonomous Multi-Agent Framework [13.494469496862534]
大規模言語モデル(LLM)を利用したマルチエージェントシステム(MAS)は、複雑で多面的な問題を解決するための強力なパラダイムとして浮上している。
これらのシステムのポテンシャルは、しばしば、臨界的な制限に悩まされる一般的なプラン・アンド・エグゼクティブ・フレームワークによって制約される。
本稿では、動的でリアクティブな計画と実行を通じてこれらの課題を克服するために設計された、新しいマルチエージェントフレームワークであるAimeを紹介する。
論文 参考訳(メタデータ) (2025-07-16T07:38:28Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees [6.792743621449621]
2段階のL2D(Learning-to-Defer)は、各入力を固定されたメインモデルまたは複数のオフライン専門家のいずれかに割り当てることで、最適なタスクデリゲートを可能にする。
既存のL2Dフレームワークはクリーンな入力を前提としており、クエリ割り当てを操作できる敵の摂動に弱い。
2段階L2Dシステムにおける対向ロバスト性の最初の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-02-03T03:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。