Fugu-MT 論文翻訳(概要): PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents

論文の概要: PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents

arxiv url: http://arxiv.org/abs/2505.01592v1
Date: Fri, 02 May 2025 21:27:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.186583
Title: PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents
Title（参考訳）: PIPA:対話型計画エージェント診断のための統一評価プロトコル
Authors: Takyoung Kim, Janvijay Singh, Shuhaib Mehri, Emre Can Acikgoz, Sagnik Mukherjee, Nimet Beyza Bozdag, Sumuk Shashidhar, Gokhan Tur, Dilek Hakkani-Tür,
Abstract要約: 既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
参考スコア（独自算出の注目度）: 12.052972947563424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing capabilities of large language models (LLMs) in instruction-following and context-understanding lead to the era of agents with numerous applications. Among these, task planning agents have become especially prominent in realistic scenarios involving complex internal pipelines, such as context understanding, tool management, and response generation. However, existing benchmarks predominantly evaluate agent performance based on task completion as a proxy for overall effectiveness. We hypothesize that merely improving task completion is misaligned with maximizing user satisfaction, as users interact with the entire agentic process and not only the end result. To address this gap, we propose PIPA, a unified evaluation protocol that conceptualizes the behavioral process of interactive task planning agents within a partially observable Markov Decision Process (POMDP) paradigm. The proposed protocol offers a comprehensive assessment of agent performance through a set of atomic evaluation criteria, allowing researchers and practitioners to diagnose specific strengths and weaknesses within the agent's decision-making pipeline. Our analyses show that agents excel in different behavioral stages, with user satisfaction shaped by both outcomes and intermediate behaviors. We also highlight future directions, including systems that leverage multiple agents and the limitations of user simulators in task planning.
Abstract（参考訳）: 大きな言語モデル(LLM)の命令追従とコンテキスト理解能力の増大は、多数のアプリケーションを持つエージェントの時代に繋がる。これらの中、タスク計画エージェントは、コンテキスト理解、ツール管理、レスポンス生成といった複雑な内部パイプラインを含む現実的なシナリオにおいて特に顕著になっている。しかし、既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして主に評価している。我々は、単にタスク完了を改善するだけでは、ユーザがエージェントプロセス全体と対話し、最終結果だけでなく、ユーザの満足度を最大化するのと一致しない、と仮定する。このギャップに対処するために,対話型タスク計画エージェントの行動過程を部分的に観測可能なマルコフ決定プロセス(POMDP)パラダイムで概念化する統合評価プロトコルPIPAを提案する。提案プロトコルは、一連の原子評価基準を通じてエージェントのパフォーマンスを総合的に評価し、研究者や実践者がエージェントの意思決定パイプライン内の特定の強度と弱点を診断できるようにする。分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。また,複数のエージェントを活用するシステムや,タスク計画におけるユーザシミュレータの制限など,今後の方向性も強調する。

関連論文リスト

Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation [4.08768677009363]
本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。 GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
論文参考訳（メタデータ） (2025-08-07T15:39:48Z)
Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。 Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T09:46:50Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
Interactive Speculative Planning: Enhance Agent Efficiency through Co-design of System and User Interface [38.76937539085164]
本稿では,人間中心の効率的なエージェント計画手法である対話型投機計画を提案する。我々は,システム設計と人間-AIインタラクションの両面からエージェント計画の効率化を目指す。
論文参考訳（メタデータ） (2024-09-30T16:52:51Z)
Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文参考訳（メタデータ） (2024-06-18T14:07:28Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (2024-02-14T14:36:30Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。 AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文参考訳（メタデータ） (2020-06-02T09:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。