論文の概要: AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents
- arxiv url: http://arxiv.org/abs/2503.02403v1
- Date: Tue, 04 Mar 2025 08:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:31.413577
- Title: AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents
- Title(参考訳): AutoEval: モバイルエージェントの自動評価のための実践的フレームワーク
- Authors: Jiahui Sun, Zhichao Hua, Yubin Xia,
- Abstract要約: AutoEvalは、自動エージェント評価フレームワークで、手作業なしでモバイルエージェントをテストする。
我々は,提案フレームワークのプロトタイプを実装し,自動生成したタスク報酬信号の検証を行い,人手による報酬信号の93%以上を検索した。
我々は,現状のモバイルエージェントを我々のフレームワークを用いて評価し,その性能特性と限界について詳細な知見を提供する。
- 参考スコア(独自算出の注目度): 5.515875179998062
- License:
- Abstract: Accurate and systematic evaluation of mobile agents can significantly advance their development and real-world applicability. However, existing benchmarks for mobile agents lack practicality and scalability due to the extensive manual effort required to define task reward signals and implement corresponding evaluation codes. To this end, we propose AutoEval, an autonomous agent evaluation framework that tests a mobile agent without any manual effort. First, we design a Structured Substate Representation to describe the UI state changes while agent execution, such that task reward signals can be automatically generated. Second, we utilize a Judge System that can autonomously evaluate agents' performance given the automatically generated task reward signals. By providing only a task description, our framework evaluates agents with fine-grained performance feedback to that task without any extra manual effort. We implement a prototype of our framework and validate the automatically generated task reward signals, finding over 93% coverage to human-annotated reward signals. Moreover, to prove the effectiveness of our autonomous Judge System, we manually verify its judge results and demonstrate that it achieves 94% accuracy. Finally, we evaluate the state-of-the-art mobile agents using our framework, providing detailed insights into their performance characteristics and limitations.
- Abstract(参考訳): モバイルエージェントの正確かつ体系的な評価は、その開発と実世界の適用性を著しく向上させることができる。
しかし、既存のモバイルエージェントのベンチマークでは、タスク報酬信号を定義し、対応する評価コードを実装するのに必要な広範囲な手作業のために、実用性とスケーラビリティが欠如している。
この目的のために,自動エージェント評価フレームワークであるAutoEvalを提案する。
まず、エージェントの実行中にUIの状態変化を記述し、タスク報酬信号を自動的に生成できるように、構造化サブステート表現を設計する。
第2に、自動生成されたタスク報酬信号からエージェントのパフォーマンスを自律的に評価できる判断システムを利用する。
タスク記述のみを提供することで、我々のフレームワークは、余分な手作業なしに、そのタスクに対してきめ細かいパフォーマンスフィードバックを持つエージェントを評価します。
我々は,提案フレームワークのプロトタイプを実装し,自動生成したタスク報酬信号の検証を行い,人手による報酬信号の93%以上を検索した。
さらに,自律的判断システムの有効性を証明するために,判断結果を手作業で検証し,94%の精度で評価した。
最後に、我々のフレームワークを用いて最先端のモバイルエージェントを評価し、その性能特性と限界について詳細な知見を提供する。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Multimodal Auto Validation For Self-Refinement in Web Agents [0.5843533603338313]
本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。
本稿では,異なるモーダル性(テキスト,視覚)の包括的研究と,Webエージェントの自動検証における階層構造の影響について述べる。
我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。
論文 参考訳(メタデータ) (2024-10-01T13:43:55Z) - Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving [17.27549891731047]
我々は,強化学習を用いた行動モデルのクローズドループ微調整によりエージェント動作の信頼性を向上させる。
本手法は,衝突速度などの目標値の改善とともに,全体的な性能の向上を示す。
シミュレーションエージェントが自律走行車プランナーの質を計測する能力を直接評価するための新しいポリシー評価ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-26T23:40:33Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Autonomous Evaluation and Refinement of Digital Agents [57.12281122337407]
ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。
我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。
論文 参考訳(メタデータ) (2024-04-09T17:25:47Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。