論文の概要: PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents
- arxiv url: http://arxiv.org/abs/2505.01592v1
- Date: Fri, 02 May 2025 21:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.186583
- Title: PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents
- Title(参考訳): PIPA:対話型計画エージェント診断のための統一評価プロトコル
- Authors: Takyoung Kim, Janvijay Singh, Shuhaib Mehri, Emre Can Acikgoz, Sagnik Mukherjee, Nimet Beyza Bozdag, Sumuk Shashidhar, Gokhan Tur, Dilek Hakkani-Tür,
- Abstract要約: 既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
- 参考スコア(独自算出の注目度): 12.052972947563424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing capabilities of large language models (LLMs) in instruction-following and context-understanding lead to the era of agents with numerous applications. Among these, task planning agents have become especially prominent in realistic scenarios involving complex internal pipelines, such as context understanding, tool management, and response generation. However, existing benchmarks predominantly evaluate agent performance based on task completion as a proxy for overall effectiveness. We hypothesize that merely improving task completion is misaligned with maximizing user satisfaction, as users interact with the entire agentic process and not only the end result. To address this gap, we propose PIPA, a unified evaluation protocol that conceptualizes the behavioral process of interactive task planning agents within a partially observable Markov Decision Process (POMDP) paradigm. The proposed protocol offers a comprehensive assessment of agent performance through a set of atomic evaluation criteria, allowing researchers and practitioners to diagnose specific strengths and weaknesses within the agent's decision-making pipeline. Our analyses show that agents excel in different behavioral stages, with user satisfaction shaped by both outcomes and intermediate behaviors. We also highlight future directions, including systems that leverage multiple agents and the limitations of user simulators in task planning.
- Abstract(参考訳): 大きな言語モデル(LLM)の命令追従とコンテキスト理解能力の増大は、多数のアプリケーションを持つエージェントの時代に繋がる。
これらの中、タスク計画エージェントは、コンテキスト理解、ツール管理、レスポンス生成といった複雑な内部パイプラインを含む現実的なシナリオにおいて特に顕著になっている。
しかし、既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして主に評価している。
我々は、単にタスク完了を改善するだけでは、ユーザがエージェントプロセス全体と対話し、最終結果だけでなく、ユーザの満足度を最大化するのと一致しない、と仮定する。
このギャップに対処するために,対話型タスク計画エージェントの行動過程を部分的に観測可能なマルコフ決定プロセス(POMDP)パラダイムで概念化する統合評価プロトコルPIPAを提案する。
提案プロトコルは、一連の原子評価基準を通じてエージェントのパフォーマンスを総合的に評価し、研究者や実践者がエージェントの意思決定パイプライン内の特定の強度と弱点を診断できるようにする。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
また,複数のエージェントを活用するシステムや,タスク計画におけるユーザシミュレータの制限など,今後の方向性も強調する。
関連論文リスト
- Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。