Fugu-MT 論文翻訳(概要): AutoLibra: Agent Metric Induction from Open-Ended Feedback

論文の概要: AutoLibra: Agent Metric Induction from Open-Ended Feedback

arxiv url: http://arxiv.org/abs/2505.02820v1
Date: Mon, 05 May 2025 17:47:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.759187
Title: AutoLibra: Agent Metric Induction from Open-Ended Feedback
Title（参考訳）: AutoLibra: オープンエンドフィードバックからのエージェントメトリックインジェクション
Authors: Hao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang,
Abstract要約: AutoLibraは、オープンな人間のフィードバックを変換するエージェント評価のためのフレームワークである。より具体的なエージェント評価指標を誘導するAutoLibraの能力を実験的に示す。 AutoLibraが引き起こすメトリクスは、タスクの成功率よりもプロンプトエンジニアリングの目標として役立ちます。
参考スコア（独自算出の注目度）: 44.905607036805634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agents are predominantly evaluated and optimized via task success metrics, which are coarse, rely on manual design from experts, and fail to reward intermediate emergent behaviors. We propose AutoLibra, a framework for agent evaluation, that transforms open-ended human feedback, e.g., "If you find that the button is disabled, don't click it again", or "This agent has too much autonomy to decide what to do on its own", into metrics for evaluating fine-grained behaviors in agent trajectories. AutoLibra accomplishes this by grounding feedback to an agent's behavior, clustering similar positive and negative behaviors, and creating concrete metrics with clear definitions and concrete examples, which can be used for prompting LLM-as-a-Judge as evaluators. We further propose two meta-metrics to evaluate the alignment of a set of (induced) metrics with open feedback: "coverage" and "redundancy". Through optimizing these meta-metrics, we experimentally demonstrate AutoLibra's ability to induce more concrete agent evaluation metrics than the ones proposed in previous agent evaluation benchmarks and discover new metrics to analyze agents. We also present two applications of AutoLibra in agent improvement: First, we show that AutoLibra-induced metrics serve as better prompt-engineering targets than the task success rate on a wide range of text game tasks, improving agent performance over baseline by a mean of 20%. Second, we show that AutoLibra can iteratively select high-quality fine-tuning data for web navigation agents. Our results suggest that AutoLibra is a powerful task-agnostic tool for evaluating and improving language agents.
Abstract（参考訳）: エージェントは、粗いタスク成功メトリクスによって主に評価され、最適化される。エージェント評価のためのフレームワークであるAutoLibraは、例えば、"ボタンが無効だと分かったら、もう一度クリックしない"、"このエージェントは、自分で何をするかを決めるのに多くの自主性を持っている"といった、オープンな人間のフィードバックをエージェントトラジェクトリ内のきめ細かい振る舞いを評価するメトリクスに変換する。 AutoLibraは、エージェントの振る舞いにフィードバックを基盤として、同様の肯定的かつ否定的な振る舞いをクラスタリングし、明確な定義と具体的な例で具体的なメトリクスを作成することでこれを達成します。さらに,「カバレッジ」と「冗長性」という2つのメタメトリクスを用いて,一連の(誘導)メトリクスのアライメントをオープンフィードバックで評価する。これらのメタメトリックを最適化することで、従来のエージェント評価ベンチマークで提案した指標よりも具体的なエージェント評価メトリクスを誘導し、エージェントを解析するための新しい指標を発見するAutoLibraの能力を実験的に示す。エージェント改善におけるAutoLibraの2つの応用について述べる: まず、AutoLibraが引き起こすメトリクスは、幅広いテキストゲームタスクにおけるタスク成功率よりも、プロンプトエンジニアリングの目標として優れていることを示し、ベースライン上でのエージェントパフォーマンスを平均20%向上させる。第二に、AutoLibraはWebナビゲーションエージェントの高品質な微調整データを反復的に選択できることを示す。この結果から,AutoLibraは言語エージェントの評価と改善のための強力なタスク非依存ツールであることが示唆された。

関連論文リスト

SI-Agent: An Agentic Framework for Feedback-Driven Generation and Tuning of Human-Readable System Instructions for Large Language Models [0.0]
システムインストラクション(SI)は、大規模言語モデル(LLM)の指針となる。既存の自動化手法は、人間が読めない「ソフトプロンプト」を頻繁に生成し、解釈しやすさを犠牲にする。本稿では,人間の読みやすいSIを自動生成し,反復的に洗練する新しいエージェントフレームワークであるSI-Agentを紹介する。
論文参考訳（メタデータ） (2025-07-03T23:44:50Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
AgentAda: Skill-Adaptive Data Analytics for Tailored Insight Discovery [20.333502467911828]
我々はAgentAdaを紹介した。AgentAdaは、新しい分析スキルを学び、利用して、より専門的な洞察を引き出すことができる最初の分析エージェントだ。ユーザーがどのデータ分析方法を適用するかを手動で決める既存の方法とは異なり、AgentAdaは分析を行うために必要なスキルを自動的に識別する。我々は、AgentAdaが既存のツールよりも洞察に富んだ分析を提供しており、48.78%が分析を好み、27.67%は未熟練のエージェントであることを示した。
論文参考訳（メタデータ） (2025-04-10T03:27:25Z)
AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.515875179998062]
AutoEvalは、自動エージェント評価フレームワークで、手作業なしでモバイルエージェントをテストする。我々は,提案フレームワークのプロトタイプを実装し,自動生成したタスク報酬信号の検証を行い,人手による報酬信号の93%以上を検索した。我々は,現状のモバイルエージェントを我々のフレームワークを用いて評価し,その性能特性と限界について詳細な知見を提供する。
論文参考訳（メタデータ） (2025-03-04T08:44:30Z)
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文参考訳（メタデータ） (2025-02-04T18:58:31Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文参考訳（メタデータ） (2023-10-16T06:41:16Z)
Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文参考訳（メタデータ） (2023-03-07T02:49:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。