論文の概要: HCAST: Human-Calibrated Autonomy Software Tasks
- arxiv url: http://arxiv.org/abs/2503.17354v1
- Date: Fri, 21 Mar 2025 17:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:09.450745
- Title: HCAST: Human-Calibrated Autonomy Software Tasks
- Title(参考訳): HCAST: ヒューマンキャリブレーションされた自律性ソフトウェアタスク
- Authors: David Rein, Joel Becker, Amy Deng, Seraphina Nix, Chris Canal, Daniel O'Connel, Pip Arnott, Ryan Bloom, Thomas Broadley, Katharyn Garcia, Brian Goodrich, Max Hasin, Sami Jawhar, Megan Kinniment, Thomas Kwa, Aron Lajko, Nate Rush, Lucas Jun Koba Sato, Sydney Von Arx, Ben West, Lawrence Chan, Elizabeth Barnes,
- Abstract要約: HCASTは189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークである。
HCASTタスクは1分から8時間以上かかると見積もっている。
我々は、フロンティア基礎モデルに基づいて構築されたAIエージェントの成功率を評価する。
- 参考スコア(独自算出の注目度): 1.5287939112540956
- License:
- Abstract: To understand and predict the societal impacts of highly autonomous AI systems, we need benchmarks with grounding, i.e., metrics that directly connect AI performance to real-world effects we care about. We present HCAST (Human-Calibrated Autonomy Software Tasks), a benchmark of 189 machine learning engineering, cybersecurity, software engineering, and general reasoning tasks. We collect 563 human baselines (totaling over 1500 hours) from people skilled in these domains, working under identical conditions as AI agents, which lets us estimate that HCAST tasks take humans between one minute and 8+ hours. Measuring the time tasks take for humans provides an intuitive metric for evaluating AI capabilities, helping answer the question "can an agent be trusted to complete a task that would take a human X hours?" We evaluate the success rates of AI agents built on frontier foundation models, and we find that current agents succeed 70-80% of the time on tasks that take humans less than one hour, and less than 20% of the time on tasks that take humans more than 4 hours.
- Abstract(参考訳): 高度に自律的なAIシステムの社会的影響を理解し、予測するためには、AIのパフォーマンスと私たちが関心のある実世界のエフェクトを直接結びつけるメトリクスを根拠とするベンチマークが必要です。
HCAST(Human-Calibrated Autonomy Software Tasks)は189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークである。
AIエージェントと同じ条件下で作業することで、HCASTタスクが1分から8時間以上かかると見積もることができるのです。
人間にとってのタスクの時間を測定することは、AI能力を評価するための直感的な指標を提供する。
我々は、フロンティア基礎モデルに基づいて構築されたAIエージェントの成功率を評価し、現在のエージェントが1時間未満のタスクで70~80%、人間で4時間以上かかるタスクで20%未満の時間で成功することを発見した。
関連論文リスト
- TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。
最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。
これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.112091541691995]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Human-AI Collaboration in Real-World Complex Environment with
Reinforcement Learning [8.465957423148657]
人間からの学習は効果的であり、人間とAIのコラボレーションは、人間の制御された完全に自律的なAIエージェントよりも優れていることを示す。
我々は,AIエージェントを効果的に支援するためのユーザインタフェースを開発した。
論文 参考訳(メタデータ) (2023-12-23T04:27:24Z) - HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Navigation Turing Test (NTT): Learning to Evaluate Human-Like Navigation [9.456752543341464]
複雑な人間のような振る舞いを学習するエージェントを開発する上で重要な課題は、人間の類似性を迅速かつ正確に定量化する必要があることである。
これらの制限に対処するために,人間に近い人間の判断を学習する新しい自動ナビゲーションチューリングテスト(ANTT)を提案する。
論文 参考訳(メタデータ) (2021-05-20T10:14:23Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。