論文の概要: RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts
- arxiv url: http://arxiv.org/abs/2411.15114v1
- Date: Fri, 22 Nov 2024 18:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:54.394952
- Title: RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts
- Title(参考訳): Re-Bench: 言語モデルエージェントのフロンティアAIR&D能力の評価
- Authors: Hjalmar Wijk, Tao Lin, Joel Becker, Sami Jawhar, Neev Parikh, Thomas Broadley, Lawrence Chan, Michael Chen, Josh Clymer, Jai Dhyani, Elena Ericheva, Katharyn Garcia, Brian Goodrich, Nikola Jurkovic, Megan Kinniment, Aron Lajko, Seraphina Nix, Lucas Sato, William Saunders, Maksym Taran, Ben West, Elizabeth Barnes,
- Abstract要約: 7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
- 参考スコア(独自算出の注目度): 4.112091541691995
- License:
- Abstract: Frontier AI safety policies highlight automation of AI research and development (R&D) by AI agents as an important capability to anticipate. However, there exist few evaluations for AI R&D capabilities, and none that are highly realistic and have a direct comparison to human performance. We introduce RE-Bench (Research Engineering Benchmark, v1), which consists of 7 challenging, open-ended ML research engineering environments and data from 71 8-hour attempts by 61 distinct human experts. We confirm that our experts make progress in the environments given 8 hours, with 82% of expert attempts achieving a non-zero score and 24% matching or exceeding our strong reference solutions. We compare humans to several public frontier models through best-of-k with varying time budgets and agent designs, and find that the best AI agents achieve a score 4x higher than human experts when both are given a total time budget of 2 hours per environment. However, humans currently display better returns to increasing time budgets, narrowly exceeding the top AI agent scores given an 8-hour budget, and achieving 2x the score of the top AI agent when both are given 32 total hours (across different attempts). Qualitatively, we find that modern AI agents possess significant expertise in many ML topics -- e.g. an agent wrote a faster custom Triton kernel than any of our human experts' -- and can generate and test solutions over ten times faster than humans, at much lower cost. We open-source the evaluation environments, human expert data, analysis code and agent trajectories to facilitate future research.
- Abstract(参考訳): 最前線のAI安全ポリシーは、AIエージェントによるAI研究と開発(R&D)の自動化を期待する重要な能力として強調する。
しかし、AI R&D能力の評価はほとんどなく、非常に現実的であり、人間のパフォーマンスと直接比較できるものはない。
Re-Bench (Research Engineering Benchmark, v1) は、7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の異なる専門家による71時間の試行から得られたデータから構成される。
専門家の82%が非ゼロスコアを達成し、24%が一致するか、あるいは強い参照ソリューションを越えている。
我々は、人間といくつかの公共フロンティアモデルを比較し、最高のAIエージェントが、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得られることを発見した。
しかし、現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
質的に言えば、現代のAIエージェントは、多くのMLトピックにおいて重要な専門知識を持っている。例えば、エージェントは、人間の専門家よりも早くカスタムのTritonカーネルを書き、より低コストで、人間よりも10倍早くソリューションを生成し、テストすることができる。
我々は,評価環境,人的専門家データ,分析コード,エージェントトラジェクトリをオープンソースとして公開し,今後の研究を促進する。
関連論文リスト
- ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark [7.840781070208872]
2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
これまでの研究は、ARCベンチマークで人間がいかにうまくタスクを解くことができるかを調査した。
我々は,400のトレーニングと400のタスクの完全なセットに基づいて1729人の人間を評価することによって,より堅牢な人的パフォーマンスの推定値を得る。
論文 参考訳(メタデータ) (2024-09-02T17:11:32Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Bending the Automation Bias Curve: A Study of Human and AI-based
Decision Making in National Security Contexts [0.0]
私たちは、AIに関する背景知識とAIに対する信頼の関係、自動化バイアスの確率に影響を与える他の要因との相互作用について理論を立てています。
我々は、AI産業のレベルが異なる9カ国の9000人の成人の代表例を対象に、事前登録されたタスク識別実験でテストを行った。
論文 参考訳(メタデータ) (2023-06-28T18:57:36Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - Measuring an artificial intelligence agent's trust in humans using
machine incentives [2.1016374925364616]
人間に対するAIエージェントの信頼を評価することは難しい。
本稿では,AIエージェントのアルゴリズムやゴールオリエンテーションを変更することなく,機械決定をインセンティブ化する手法を提案する。
我々の実験は、これまでで最も先進的なAI言語モデルの一つがインセンティブに反応して社会行動を変えることを示唆している。
論文 参考訳(メタデータ) (2022-12-27T06:05:49Z) - Should I Follow AI-based Advice? Measuring Appropriate Reliance in
Human-AI Decision-Making [0.0]
私たちは、人間がAIアドバイスを盲目的に頼らず、その品質を区別し、より良い意思決定を行うために行動できるようにすることを目標としています。
現在の研究では、ケースバイケースベースでAIアドバイスに対する適切な信頼(AR)の基準が欠如している。
我々は、ARをアドバイス品質を識別し、それに応じて振る舞う能力を測定する2次元構成体として見ることを提案する。
論文 参考訳(メタデータ) (2022-04-14T12:18:51Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。