Fugu-MT 論文翻訳(概要): Autonomous Evaluation and Refinement of Digital Agents

論文の概要: Autonomous Evaluation and Refinement of Digital Agents

arxiv url: http://arxiv.org/abs/2404.06474v3
Date: Mon, 07 Oct 2024 14:19:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 18:17:13.346542
Title: Autonomous Evaluation and Refinement of Digital Agents
Title（参考訳）: デジタルエージェントの自律的評価とリファインメント
Authors: Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr,
Abstract要約: ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。
参考スコア（独自算出の注目度）: 57.12281122337407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that domain-general automatic evaluators can significantly improve the performance of agents for web navigation and device control. We experiment with multiple evaluation models that trade off between inference cost, modularity of design, and accuracy. We validate the performance of these models in several popular benchmarks for digital agents, finding between 74.4 and 92.9% agreement with oracle evaluation metrics. Finally, we use these evaluators to improve the performance of existing agents via fine-tuning and inference-time guidance. Without any additional supervision, we improve state-of-the-art performance by 29% on the popular benchmark WebArena, and achieve around 75% relative improvement in device control settings.
Abstract（参考訳）: ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。推論コスト、設計のモジュラリティ、精度をトレードオフする複数の評価モデルを試行する。我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。最後に、これらの評価器を用いて、微調整および推論時ガイダンスにより既存のエージェントの性能を向上させる。さらなる監視がなければ、一般的なベンチマークであるWebArenaでは、最先端のパフォーマンスを29%向上させ、デバイスコントロール設定の相対的な改善を約75%達成します。

関連論文リスト

An End-to-End Multi-objective Ensemble Ranking Framework for Video Recommendation [20.59012057446529]
本稿では,多目的アンサンブルランキングモジュールのための新しいエンド・ツー・エンド多目的アンサンブルランキングフレームワーク(EMER)を提案する。 EMERは手作業で設計された公式をエンドツーエンドのモデリングパラダイムに置き換えることで強化する。当社のフレームワークは,毎日数億人のアクティブユーザがいるショートビデオレコメンデーションプラットフォームであるKuaishouの主要なシナリオにデプロイされています。
論文参考訳（メタデータ） (2025-08-07T07:21:46Z)
The Effects of Grouped Structural Global Pruning of Vision Transformers on Domain Generalisation [2.2124795371148616]
本稿では,事前学習型視覚変換器(ViT,BeiT,DeiT)の群構造解析手法を提案する。本手法では,ニューロン,重み,フィルタ,アテンションヘッドの冗長なグループを解析・除去するために依存性グラフ解析を用いる。その結果,精度とDGタスク性能のトレードオフを最小限に抑えつつ,推論速度と微調整時間を著しく改善した。
論文参考訳（メタデータ） (2025-04-05T15:05:36Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文参考訳（メタデータ） (2025-04-02T05:51:29Z)
VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文参考訳（メタデータ） (2025-03-30T14:12:21Z)
AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.515875179998062]
AutoEvalは、自動エージェント評価フレームワークで、手作業なしでモバイルエージェントをテストする。我々は,提案フレームワークのプロトタイプを実装し,自動生成したタスク報酬信号の検証を行い,人手による報酬信号の93%以上を検索した。我々は,現状のモバイルエージェントを我々のフレームワークを用いて評価し,その性能特性と限界について詳細な知見を提供する。
論文参考訳（メタデータ） (2025-03-04T08:44:30Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving [17.27549891731047]
我々は,強化学習を用いた行動モデルのクローズドループ微調整によりエージェント動作の信頼性を向上させる。本手法は,衝突速度などの目標値の改善とともに,全体的な性能の向上を示す。シミュレーションエージェントが自律走行車プランナーの質を計測する能力を直接評価するための新しいポリシー評価ベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-26T23:40:33Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Domain Adaptation of Transformer-Based Models using Unlabeled Data for Relevance and Polarity Classification of German Customer Feedback [1.2999413717930817]
この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
論文参考訳（メタデータ） (2022-12-12T08:32:28Z)
On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文参考訳（メタデータ） (2022-05-18T23:52:21Z)
DAPPER: Label-Free Performance Estimation after Personalization for Heterogeneous Mobile Sensing [95.18236298557721]
DAPPER(Domain AdaPtation Performance EstimatoR)を提案する。実世界の6つのベースラインと比較した4つのセンシングデータセットによる評価の結果,DAPPERの精度は39.8%向上した。
論文参考訳（メタデータ） (2021-11-22T08:49:33Z)
Control Distance IoU and Control Distance IoU Loss Function for Better Bounding Box Regression [11.916482804759479]
まず,評価システムとフィードバック機構から構成される評価フィードバックモジュールを提案する。最後に、評価システムとフィードバック機構の両方に焦点を当て、制御距離IoUと制御距離IoU損失関数を提案します。
論文参考訳（メタデータ） (2021-03-22T09:57:25Z)
Our Evaluation Metric Needs an Update to Encourage Generalization [24.6240575061124]
一般的なベンチマークで人的パフォーマンスを上回るモデルでは、Out of Distributionデータへの露出によるパフォーマンスの大幅な低下が示される。本稿では,評価中の一般化を促す簡易で斬新な評価指標WOOD Scoreを提案する。
論文参考訳（メタデータ） (2020-07-14T08:15:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。