論文の概要: AutoLibra: Agent Metric Induction from Open-Ended Feedback
- arxiv url: http://arxiv.org/abs/2505.02820v1
- Date: Mon, 05 May 2025 17:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.759187
- Title: AutoLibra: Agent Metric Induction from Open-Ended Feedback
- Title(参考訳): AutoLibra: オープンエンドフィードバックからのエージェントメトリックインジェクション
- Authors: Hao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang,
- Abstract要約: AutoLibraは、オープンな人間のフィードバックを変換するエージェント評価のためのフレームワークである。
より具体的なエージェント評価指標を誘導するAutoLibraの能力を実験的に示す。
AutoLibraが引き起こすメトリクスは、タスクの成功率よりもプロンプトエンジニアリングの目標として役立ちます。
- 参考スコア(独自算出の注目度): 44.905607036805634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents are predominantly evaluated and optimized via task success metrics, which are coarse, rely on manual design from experts, and fail to reward intermediate emergent behaviors. We propose AutoLibra, a framework for agent evaluation, that transforms open-ended human feedback, e.g., "If you find that the button is disabled, don't click it again", or "This agent has too much autonomy to decide what to do on its own", into metrics for evaluating fine-grained behaviors in agent trajectories. AutoLibra accomplishes this by grounding feedback to an agent's behavior, clustering similar positive and negative behaviors, and creating concrete metrics with clear definitions and concrete examples, which can be used for prompting LLM-as-a-Judge as evaluators. We further propose two meta-metrics to evaluate the alignment of a set of (induced) metrics with open feedback: "coverage" and "redundancy". Through optimizing these meta-metrics, we experimentally demonstrate AutoLibra's ability to induce more concrete agent evaluation metrics than the ones proposed in previous agent evaluation benchmarks and discover new metrics to analyze agents. We also present two applications of AutoLibra in agent improvement: First, we show that AutoLibra-induced metrics serve as better prompt-engineering targets than the task success rate on a wide range of text game tasks, improving agent performance over baseline by a mean of 20%. Second, we show that AutoLibra can iteratively select high-quality fine-tuning data for web navigation agents. Our results suggest that AutoLibra is a powerful task-agnostic tool for evaluating and improving language agents.
- Abstract(参考訳): エージェントは、粗いタスク成功メトリクスによって主に評価され、最適化される。
エージェント評価のためのフレームワークであるAutoLibraは、例えば、"ボタンが無効だと分かったら、もう一度クリックしない"、"このエージェントは、自分で何をするかを決めるのに多くの自主性を持っている"といった、オープンな人間のフィードバックをエージェントトラジェクトリ内のきめ細かい振る舞いを評価するメトリクスに変換する。
AutoLibraは、エージェントの振る舞いにフィードバックを基盤として、同様の肯定的かつ否定的な振る舞いをクラスタリングし、明確な定義と具体的な例で具体的なメトリクスを作成することでこれを達成します。
さらに,「カバレッジ」と「冗長性」という2つのメタメトリクスを用いて,一連の(誘導)メトリクスのアライメントをオープンフィードバックで評価する。
これらのメタメトリックを最適化することで、従来のエージェント評価ベンチマークで提案した指標よりも具体的なエージェント評価メトリクスを誘導し、エージェントを解析するための新しい指標を発見するAutoLibraの能力を実験的に示す。
エージェント改善におけるAutoLibraの2つの応用について述べる: まず、AutoLibraが引き起こすメトリクスは、幅広いテキストゲームタスクにおけるタスク成功率よりも、プロンプトエンジニアリングの目標として優れていることを示し、ベースライン上でのエージェントパフォーマンスを平均20%向上させる。
第二に、AutoLibraはWebナビゲーションエージェントの高品質な微調整データを反復的に選択できることを示す。
この結果から,AutoLibraは言語エージェントの評価と改善のための強力なタスク非依存ツールであることが示唆された。
関連論文リスト
- AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - AgentAda: Skill-Adaptive Data Analytics for Tailored Insight Discovery [20.333502467911828]
我々はAgentAdaを紹介した。AgentAdaは、新しい分析スキルを学び、利用して、より専門的な洞察を引き出すことができる最初の分析エージェントだ。
ユーザーがどのデータ分析方法を適用するかを手動で決める既存の方法とは異なり、AgentAdaは分析を行うために必要なスキルを自動的に識別する。
我々は、AgentAdaが既存のツールよりも洞察に富んだ分析を提供しており、48.78%が分析を好み、27.67%は未熟練のエージェントであることを示した。
論文 参考訳(メタデータ) (2025-04-10T03:27:25Z) - AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.515875179998062]
AutoEvalは、自動エージェント評価フレームワークで、手作業なしでモバイルエージェントをテストする。
我々は,提案フレームワークのプロトタイプを実装し,自動生成したタスク報酬信号の検証を行い,人手による報酬信号の93%以上を検索した。
我々は,現状のモバイルエージェントを我々のフレームワークを用いて評価し,その性能特性と限界について詳細な知見を提供する。
論文 参考訳(メタデータ) (2025-03-04T08:44:30Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。