Fugu-MT 論文翻訳(概要): HCAST: Human-Calibrated Autonomy Software Tasks

論文の概要: HCAST: Human-Calibrated Autonomy Software Tasks

arxiv url: http://arxiv.org/abs/2503.17354v1
Date: Fri, 21 Mar 2025 17:54:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.560574
Title: HCAST: Human-Calibrated Autonomy Software Tasks
Title（参考訳）: HCAST: ヒューマンキャリブレーションされた自律性ソフトウェアタスク
Authors: David Rein, Joel Becker, Amy Deng, Seraphina Nix, Chris Canal, Daniel O'Connel, Pip Arnott, Ryan Bloom, Thomas Broadley, Katharyn Garcia, Brian Goodrich, Max Hasin, Sami Jawhar, Megan Kinniment, Thomas Kwa, Aron Lajko, Nate Rush, Lucas Jun Koba Sato, Sydney Von Arx, Ben West, Lawrence Chan, Elizabeth Barnes,
Abstract要約: HCASTは189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークである。 HCASTタスクは1分から8時間以上かかると見積もっている。我々は、フロンティア基礎モデルに基づいて構築されたAIエージェントの成功率を評価する。
参考スコア（独自算出の注目度）: 1.5287939112540956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To understand and predict the societal impacts of highly autonomous AI systems, we need benchmarks with grounding, i.e., metrics that directly connect AI performance to real-world effects we care about. We present HCAST (Human-Calibrated Autonomy Software Tasks), a benchmark of 189 machine learning engineering, cybersecurity, software engineering, and general reasoning tasks. We collect 563 human baselines (totaling over 1500 hours) from people skilled in these domains, working under identical conditions as AI agents, which lets us estimate that HCAST tasks take humans between one minute and 8+ hours. Measuring the time tasks take for humans provides an intuitive metric for evaluating AI capabilities, helping answer the question "can an agent be trusted to complete a task that would take a human X hours?" We evaluate the success rates of AI agents built on frontier foundation models, and we find that current agents succeed 70-80% of the time on tasks that take humans less than one hour, and less than 20% of the time on tasks that take humans more than 4 hours.
Abstract（参考訳）: 高度に自律的なAIシステムの社会的影響を理解し、予測するためには、AIのパフォーマンスと私たちが関心のある実世界のエフェクトを直接結びつけるメトリクスを根拠とするベンチマークが必要です。 HCAST(Human-Calibrated Autonomy Software Tasks)は189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークである。 AIエージェントと同じ条件下で作業することで、HCASTタスクが1分から8時間以上かかると見積もることができるのです。人間にとってのタスクの時間を測定することは、AI能力を評価するための直感的な指標を提供する。我々は、フロンティア基礎モデルに基づいて構築されたAIエージェントの成功率を評価し、現在のエージェントが1時間未満のタスクで70～80%、人間で4時間以上かかるタスクで20%未満の時間で成功することを発見した。

関連論文リスト

Measuring AI Ability to Complete Long Tasks [5.986082428339293]
人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。 Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。 AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
論文参考訳（メタデータ） (2025-03-18T17:59:31Z)
Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文参考訳（メタデータ） (2025-02-26T05:59:45Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.112091541691995]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文参考訳（メタデータ） (2024-11-22T18:30:46Z)
PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文参考訳（メタデータ） (2024-10-31T17:53:12Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)
Navigation Turing Test (NTT): Learning to Evaluate Human-Like Navigation [9.456752543341464]
複雑な人間のような振る舞いを学習するエージェントを開発する上で重要な課題は、人間の類似性を迅速かつ正確に定量化する必要があることである。これらの制限に対処するために,人間に近い人間の判断を学習する新しい自動ナビゲーションチューリングテスト(ANTT)を提案する。
論文参考訳（メタデータ） (2021-05-20T10:14:23Z)
Watch-And-Help: A Challenge for Social Perception and Human-AI Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。 WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文参考訳（メタデータ） (2020-10-19T21:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。