論文の概要: Measuring AI Ability to Complete Long Tasks
- arxiv url: http://arxiv.org/abs/2503.14499v1
- Date: Tue, 18 Mar 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:13.393226
- Title: Measuring AI Ability to Complete Long Tasks
- Title(参考訳): AIの能力測定が長いタスクを完了
- Authors: Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan,
- Abstract要約: 人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。
Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。
AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
- 参考スコア(独自算出の注目度): 5.986082428339293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress on AI benchmarks, the real-world meaning of benchmark performance remains unclear. To quantify the capabilities of AI systems in terms of human capabilities, we propose a new metric: 50%-task-completion time horizon. This is the time humans typically take to complete tasks that AI models can complete with 50% success rate. We first timed humans with relevant domain expertise on a combination of RE-Bench, HCAST, and 66 novel shorter tasks. On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes. Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024. The increase in AI models' time horizons seems to be primarily driven by greater reliability and ability to adapt to mistakes, combined with better logical reasoning and tool use capabilities. We discuss the limitations of our results -- including their degree of external validity -- and the implications of increased autonomy for dangerous capabilities. If these results generalize to real-world software tasks, extrapolation of this trend predicts that within 5 years, AI systems will be capable of automating many software tasks that currently take humans a month.
- Abstract(参考訳): AIベンチマークの急速な進歩にもかかわらず、ベンチマークパフォーマンスの現実的な意味はいまだ不明である。
人間の能力の観点からAIシステムの能力を定量化するために、新しい指標を提案する。
人間が通常、AIモデルが50%の成功率で完了できるタスクを完了させる時間です。
私たちはまず、Re-Bench、HCAST、66の短いタスクの組み合わせに関して、関連するドメインの専門知識を持つ人間をタイムトした。
これらのタスクでは、Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。
さらに、フロンティアAIの時間幅は、2019年以来約7ヶ月毎に倍増しているが、この傾向は2024年に加速した可能性がある。
AIモデルの時間的地平線の増加は、主に、より信頼性が高く、ミスに適応する能力と、より優れた論理的推論とツール使用能力によって引き起こされているように思われる。
我々は、その外的妥当性の程度を含む結果の限界と、危険な能力に対する自律性の増大がもたらす影響について論じる。
これらの結果が現実世界のソフトウェアタスクに一般化されれば、この傾向の補間は、5年以内にAIシステムが現在1ヶ月かかる多くのソフトウェアタスクを自動化することができることを予測する。
関連論文リスト
- AGI Is Coming... Right After AI Learns to Play Wordle [4.2909314120969855]
マルチモーダルエージェント、特にOpenAIのComputer-User Agent (CUA)は、人間のように標準的なコンピュータインターフェースを通じてタスクを制御および完了するよう訓練されている。
The New York Times Wordle game におけるエージェントのパフォーマンスを評価し,モデル行動の抽出と欠点の同定を行った。
論文 参考訳(メタデータ) (2025-04-21T20:58:58Z) - HCAST: Human-Calibrated Autonomy Software Tasks [1.5287939112540956]
HCASTは189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークである。
HCASTタスクは1分から8時間以上かかると見積もっている。
我々は、フロンティア基礎モデルに基づいて構築されたAIエージェントの成功率を評価する。
論文 参考訳(メタデータ) (2025-03-21T17:54:01Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文 参考訳(メタデータ) (2025-02-26T05:59:45Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。
最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。
これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.112091541691995]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - Generative Diffusion-based Contract Design for Efficient AI Twins Migration in Vehicular Embodied AI Networks [55.15079732226397]
Embodied AIは、サイバースペースと物理空間のギャップを埋める、急速に進歩する分野だ。
VEANETでは、組み込まれたAIツインが車載AIアシスタントとして機能し、自律運転をサポートするさまざまなタスクを実行する。
論文 参考訳(メタデータ) (2024-10-02T02:20:42Z) - Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs [10.844598404826355]
米国の雇用の3分の1はAIに強く依存している。
この露出は、2019年から2023年までの雇用と賃金の伸びと正の相関関係にある。
論文 参考訳(メタデータ) (2024-07-27T08:14:18Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Thousands of AI Authors on the Future of AI [1.0717301750064765]
ほとんどの回答者は、AIの進歩の長期的な価値についてかなりの不確実性を示した。
半数以上が、AIに関連する6つのシナリオについて、"実質的"または"極端"の懸念が保証されていることを示唆している。
AIの進歩が人類の未来に良くなるかどうかについては意見の相違があった。
論文 参考訳(メタデータ) (2024-01-05T14:53:09Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Hybrid Intelligence [4.508830262248694]
今後数十年間、人間と機械の間の労働分業の最も可能性の高いパラダイムはハイブリッド・インテリジェンスであると主張する。
このコンセプトは、人間の知性とAIの相補的な強みを利用することを目標とし、それぞれが個別にできることよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-03T08:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。