論文の概要: Open-World Evaluations for Measuring Frontier AI Capabilities
- arxiv url: http://arxiv.org/abs/2605.20520v1
- Date: Tue, 19 May 2026 21:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.389449
- Title: Open-World Evaluations for Measuring Frontier AI Capabilities
- Title(参考訳): 最先端AI能力測定のためのオープンワールド評価
- Authors: Sayash Kapoor, Peter Kirgis, Andrew Schwartz, Stephan Rabanser, J. J. Allaire, Rishi Bommasani, Harry Coppock, Magda Dubois, Gillian K Hadfield, Andrew B. Hall, Sara Hooker, Seth Lazar, Steve Newman, Dimitris Papailiopoulos, Shoshannah Tekofsky, Helen Toner, Cozmin Ududec, Arvind Narayanan,
- Abstract要約: 我々は,オープンワールド評価という,補完的な評価クラスを提唱する。
本稿では,最近のオープンワールド評価を調査し,その強みと限界を特定し,CRUXを定期的に実施するプロジェクトとして紹介する。
- 参考スコア(独自算出の注目度): 25.48151061461486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmark-based evaluation remains important for tracking frontier AI progress. But it can both overstate and understate deployed capability because it privileges tasks that can be precisely specified, automatically graded, easy to optimize for, and run with low budgets and short time horizons. We advocate for a complementary class of evaluations, which we term open-world evaluations: long-horizon, messy, real-world tasks assessed through small-sample qualitative analysis rather than benchmark-scale automation. In this paper we survey recent open-world evaluations, identify their strengths and limitations, and introduce CRUX (Collaborative Research for Updating AI eXpectations), a project for conducting such evaluations regularly. As a first instance, we task an AI agent with developing and publishing a simple iOS application to the Apple App Store. The agent completed the task with only a single avoidable manual intervention, suggesting that open-world evaluations can provide early warning of capabilities that may soon become widespread. We conclude with recommendations for designing and reporting open-world evals.
- Abstract(参考訳): ベンチマークベースの評価は、フロンティアAIの進捗を追跡する上で依然として重要である。
しかし、オーバーステートとアンダーステートの両方のデプロイ能力は、正確に指定され、自動的にグレードされ、最適化が容易で、予算が低く、短時間で実行できるタスクを特権化できる。
我々は、ベンチマークスケールの自動化ではなく、小さなサンプルの定性分析によって評価される長期的、混乱的、現実的なタスクという、オープンワールドの評価を補完するクラスを提唱する。
本稿では、最近のオープンワールド評価を調査し、その強みと限界を特定し、定期的に実施するCRUX(Collaborative Research for Updating AI eXpectations)を紹介する。
最初の例として、私たちはAIエージェントに、シンプルなiOSアプリケーションをApple App Storeに開発して公開するように指示します。
エージェントは単一の回避可能な手動の介入でタスクを完了し、オープンワールドの評価がすぐに広まる可能性のある機能の早期警告を提供することができることを示唆した。
オープンワールドのevalをデザインし、レポートするための推奨事項で締めくくります。
関連論文リスト
- GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows [90.35728421223673]
GTA-2はジェネラル・ツール・エージェント(GTA)の階層的なベンチマークである
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
実験では、フロンティアモデルは既に原子タスクに苦戦しているが、トップモデルは14.39%の成功しか達成していない。
論文 参考訳(メタデータ) (2026-04-17T05:36:00Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.995751996623217]
モバイルエージェントを手作業なしでテストする評価フレームワークであるAutoEvalを提案する。
提案手法では,タスク報酬信号の自動生成に使用可能なUI状態変化表現を設計する。
我々はまた、我々のフレームワークを使って最先端のモバイルエージェントを評価し、その性能と限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-03-04T08:44:30Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。
オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文 参考訳(メタデータ) (2023-05-21T10:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。