論文の概要: AI Agents That Matter
- arxiv url: http://arxiv.org/abs/2407.01502v1
- Date: Mon, 1 Jul 2024 17:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:21:46.303008
- Title: AI Agents That Matter
- Title(参考訳): 重要なAIエージェント
- Authors: Sayash Kapoor, Benedikt Stroebl, Zachary S. Siegel, Nitya Nadgir, Arvind Narayanan,
- Abstract要約: AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
他のメトリクスに注意せずに正確性に焦点が当てられている。
モデルと下流の開発者のベンチマークの必要性が混じり合っている。
多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
- 参考スコア(独自算出の注目度): 11.794931453828974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are an exciting new research direction, and agent development is driven by benchmarks. Our analysis of current agent benchmarks and evaluation practices reveals several shortcomings that hinder their usefulness in real-world applications. First, there is a narrow focus on accuracy without attention to other metrics. As a result, SOTA agents are needlessly complex and costly, and the community has reached mistaken conclusions about the sources of accuracy gains. Our focus on cost in addition to accuracy motivates the new goal of jointly optimizing the two metrics. We design and implement one such optimization, showing its potential to greatly reduce cost while maintaining accuracy. Second, the benchmarking needs of model and downstream developers have been conflated, making it hard to identify which agent would be best suited for a particular application. Third, many agent benchmarks have inadequate holdout sets, and sometimes none at all. This has led to agents that are fragile because they take shortcuts and overfit to the benchmark in various ways. We prescribe a principled framework for avoiding overfitting. Finally, there is a lack of standardization in evaluation practices, leading to a pervasive lack of reproducibility. We hope that the steps we introduce for addressing these shortcomings will spur the development of agents that are useful in the real world and not just accurate on benchmarks.
- Abstract(参考訳): AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
現在のエージェントベンチマークと評価手法の分析により,現実のアプリケーションでの有用性を損なういくつかの欠点が明らかになった。
まず、他のメトリクスに注意せずに正確性に焦点が当てられている。
その結果、SOTAエージェントは不必要に複雑でコストがかかり、コミュニティは精度向上の源泉について誤った結論に達している。
コストに加えて,コストに重点を置くことで,2つのメトリクスを共同で最適化するという,新たな目標を動機付けています。
このような最適化を設計し実装し、精度を維持しながらコストを大幅に削減する可能性を示す。
第二に、モデルと下流開発者のベンチマークの必要性が混ざり合っており、特定のアプリケーションに適したエージェントを特定するのが難しくなっている。
第3に、多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
これは様々な方法でショートカットとベンチマークに過度に適合するため、脆弱なエージェントにつながっている。
我々は過度な適合を避けるための原則的な枠組みを定めている。
最終的に、評価プラクティスの標準化が欠如し、再現性の広範囲な欠如につながります。
これらの欠点に対処するためのステップが、ベンチマークだけでなく、現実世界で有用なエージェントの開発に拍車をかけることを期待しています。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
大規模なマルチベンチマークWebエージェント実験を初めて実施する。
結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - From Grounding to Planning: Benchmarking Bottlenecks in Web Agents [1.6135641587748402]
一般的なWebベースのエージェントは、複雑なWeb環境と対話するためにますます不可欠である。
しかし、実世界のWebアプリケーションにおける彼らのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ非常に低い精度が得られる。
我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
論文 参考訳(メタデータ) (2024-09-03T14:17:09Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。