論文の概要: Measuring AI Ability to Complete Long Tasks
- arxiv url: http://arxiv.org/abs/2503.14499v1
- Date: Tue, 18 Mar 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:19.020388
- Title: Measuring AI Ability to Complete Long Tasks
- Title(参考訳): AIの能力測定が長いタスクを完了
- Authors: Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan,
- Abstract要約: 人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。
Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。
AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
- 参考スコア(独自算出の注目度): 5.986082428339293
- License:
- Abstract: Despite rapid progress on AI benchmarks, the real-world meaning of benchmark performance remains unclear. To quantify the capabilities of AI systems in terms of human capabilities, we propose a new metric: 50%-task-completion time horizon. This is the time humans typically take to complete tasks that AI models can complete with 50% success rate. We first timed humans with relevant domain expertise on a combination of RE-Bench, HCAST, and 66 novel shorter tasks. On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes. Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024. The increase in AI models' time horizons seems to be primarily driven by greater reliability and ability to adapt to mistakes, combined with better logical reasoning and tool use capabilities. We discuss the limitations of our results -- including their degree of external validity -- and the implications of increased autonomy for dangerous capabilities. If these results generalize to real-world software tasks, extrapolation of this trend predicts that within 5 years, AI systems will be capable of automating many software tasks that currently take humans a month.
- Abstract(参考訳): AIベンチマークの急速な進歩にもかかわらず、ベンチマークパフォーマンスの現実的な意味はいまだ不明である。
人間の能力の観点からAIシステムの能力を定量化するために、新しい指標を提案する。
人間が通常、AIモデルが50%の成功率で完了できるタスクを完了させる時間です。
私たちはまず、Re-Bench、HCAST、66の短いタスクの組み合わせに関して、関連するドメインの専門知識を持つ人間をタイムトした。
これらのタスクでは、Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。
さらに、フロンティアAIの時間幅は、2019年以来約7ヶ月毎に倍増しているが、この傾向は2024年に加速した可能性がある。
AIモデルの時間的地平線の増加は、主に、より信頼性が高く、ミスに適応する能力と、より優れた論理的推論とツール使用能力によって引き起こされているように思われる。
我々は、その外的妥当性の程度を含む結果の限界と、危険な能力に対する自律性の増大がもたらす影響について論じる。
これらの結果が現実世界のソフトウェアタスクに一般化されれば、この傾向の補間は、5年以内にAIシステムが現在1ヶ月かかる多くのソフトウェアタスクを自動化することができることを予測する。
関連論文リスト
- TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。
最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。
これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.112091541691995]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - Generative Diffusion-based Contract Design for Efficient AI Twins Migration in Vehicular Embodied AI Networks [55.15079732226397]
Embodied AIは、サイバースペースと物理空間のギャップを埋める、急速に進歩する分野だ。
VEANETでは、組み込まれたAIツインが車載AIアシスタントとして機能し、自律運転をサポートするさまざまなタスクを実行する。
論文 参考訳(メタデータ) (2024-10-02T02:20:42Z) - Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs [10.844598404826355]
米国の雇用の3分の1はAIに強く依存している。
この露出は、2019年から2023年までの雇用と賃金の伸びと正の相関関係にある。
論文 参考訳(メタデータ) (2024-07-27T08:14:18Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Thousands of AI Authors on the Future of AI [1.0717301750064765]
ほとんどの回答者は、AIの進歩の長期的な価値についてかなりの不確実性を示した。
半数以上が、AIに関連する6つのシナリオについて、"実質的"または"極端"の懸念が保証されていることを示唆している。
AIの進歩が人類の未来に良くなるかどうかについては意見の相違があった。
論文 参考訳(メタデータ) (2024-01-05T14:53:09Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Forecasting AI Progress: Evidence from a Survey of Machine Learning
Researchers [0.0]
我々は,AIと機械学習(ML)の研究者による,AIの進歩に関する信念に関する大規模な調査の結果を報告する。
AI/MLの研究者たちは総じて、2060年までに人間レベルのマシンインテリジェンスが達成される確率を50%に設定した。
いくつかの短期的なAIマイルストーンの予測は、時間とともに減少し、AIの進歩に対する楽観性を示唆している。
論文 参考訳(メタデータ) (2022-06-08T19:05:12Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Hybrid Intelligence [4.508830262248694]
今後数十年間、人間と機械の間の労働分業の最も可能性の高いパラダイムはハイブリッド・インテリジェンスであると主張する。
このコンセプトは、人間の知性とAIの相補的な強みを利用することを目標とし、それぞれが個別にできることよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-03T08:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。