論文の概要: AI Agents That Matter
- arxiv url: http://arxiv.org/abs/2407.01502v1
- Date: Mon, 1 Jul 2024 17:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:21:46.303008
- Title: AI Agents That Matter
- Title(参考訳): 重要なAIエージェント
- Authors: Sayash Kapoor, Benedikt Stroebl, Zachary S. Siegel, Nitya Nadgir, Arvind Narayanan,
- Abstract要約: AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
他のメトリクスに注意せずに正確性に焦点が当てられている。
モデルと下流の開発者のベンチマークの必要性が混じり合っている。
多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
- 参考スコア(独自算出の注目度): 11.794931453828974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are an exciting new research direction, and agent development is driven by benchmarks. Our analysis of current agent benchmarks and evaluation practices reveals several shortcomings that hinder their usefulness in real-world applications. First, there is a narrow focus on accuracy without attention to other metrics. As a result, SOTA agents are needlessly complex and costly, and the community has reached mistaken conclusions about the sources of accuracy gains. Our focus on cost in addition to accuracy motivates the new goal of jointly optimizing the two metrics. We design and implement one such optimization, showing its potential to greatly reduce cost while maintaining accuracy. Second, the benchmarking needs of model and downstream developers have been conflated, making it hard to identify which agent would be best suited for a particular application. Third, many agent benchmarks have inadequate holdout sets, and sometimes none at all. This has led to agents that are fragile because they take shortcuts and overfit to the benchmark in various ways. We prescribe a principled framework for avoiding overfitting. Finally, there is a lack of standardization in evaluation practices, leading to a pervasive lack of reproducibility. We hope that the steps we introduce for addressing these shortcomings will spur the development of agents that are useful in the real world and not just accurate on benchmarks.
- Abstract(参考訳): AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
現在のエージェントベンチマークと評価手法の分析により,現実のアプリケーションでの有用性を損なういくつかの欠点が明らかになった。
まず、他のメトリクスに注意せずに正確性に焦点が当てられている。
その結果、SOTAエージェントは不必要に複雑でコストがかかり、コミュニティは精度向上の源泉について誤った結論に達している。
コストに加えて,コストに重点を置くことで,2つのメトリクスを共同で最適化するという,新たな目標を動機付けています。
このような最適化を設計し実装し、精度を維持しながらコストを大幅に削減する可能性を示す。
第二に、モデルと下流開発者のベンチマークの必要性が混ざり合っており、特定のアプリケーションに適したエージェントを特定するのが難しくなっている。
第3に、多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
これは様々な方法でショートカットとベンチマークに過度に適合するため、脆弱なエージェントにつながっている。
我々は過度な適合を避けるための原則的な枠組みを定めている。
最終的に、評価プラクティスの標準化が欠如し、再現性の広範囲な欠如につながります。
これらの欠点に対処するためのステップが、ベンチマークだけでなく、現実世界で有用なエージェントの開発に拍車をかけることを期待しています。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - From Grounding to Planning: Benchmarking Bottlenecks in Web Agents [1.6135641587748402]
一般的なWebベースのエージェントは、複雑なWeb環境と対話するためにますます不可欠である。
しかし、実世界のWebアプリケーションにおける彼らのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ非常に低い精度が得られる。
我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
論文 参考訳(メタデータ) (2024-09-03T14:17:09Z) - A methodology for comparing and benchmarking quantum devices [0.19116784879310028]
まず最初に、成功の基準を定義する必要がある。問題に関連するメトリクスや統計は何か?
本稿では, ユーザ, 開発者, 研究者が, 問題の解決やクレーム作成に使用した成功基準と関連するベンチマークを定義し, 明確化し, 正当化することのできるフレームワークについて述べる。
論文 参考訳(メタデータ) (2024-05-14T13:58:53Z) - Are We Really Achieving Better Beyond-Accuracy Performance in Next Basket Recommendation? [57.91114305844153]
次のバスケットレコメンデーション(NBR)は、ますます注目を集めている特別なタイプのシーケンシャルレコメンデーションである。
NBRに関する最近の研究は、繰り返し項目を推奨することと項目を探索することの間に大きなパフォーマンス差が見つかった。
本稿では,繰り返しアイテムを扱い,個別にアイテムを探索する2段階反復探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T09:59:35Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。