論文の概要: PaperBench: Evaluating AI's Ability to Replicate AI Research
- arxiv url: http://arxiv.org/abs/2504.01848v1
- Date: Wed, 02 Apr 2025 15:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:58.540031
- Title: PaperBench: Evaluating AI's Ability to Replicate AI Research
- Title(参考訳): PaperBench: AIリサーチを再現する能力を評価する
- Authors: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan,
- Abstract要約: PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
- 参考スコア(独自算出の注目度): 3.4567792239799133
- License:
- Abstract: We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge's performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We \href{https://github.com/openai/preparedness}{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.
- Abstract(参考訳): 我々は、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークであるPaperBenchを紹介する。
エージェントは、論文のコントリビューションの理解、コードベースの開発、実験の実施など、20のICML 2024 SpotlightとOralの論文をゼロから複製する必要がある。
目的評価のために, 各複製タスクを, 明確な階調基準付きより小さなサブタスクに階層的に分解するルーリックを開発する。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
各ICML論文の著者と共同で, 精度とリアリズムの両立を図った。
スケーラブルな評価を実現するため,LLMに基づく判定器の開発も行なっており,各判定器に対する複製試行を自動評価し,判定器の別ベンチマークを作成することにより,判定器の性能評価を行う。
そこで我々はPaperBench上でのフロンティアモデルの評価を行い,最も優れた試験エージェントであるClaude 3.5 Sonnet (New) が21.0\%の平均複製スコアを得ることを確認した。
最後に、PaperBenchのサブセットを試すためにトップMLのPhDを募集し、モデルがまだ人間のベースラインを上回っていないことを発見した。
AIエージェントのAIエンジニアリング能力を理解するための将来の研究を促進するために、私たちは、私たちのコードをオープンソースにしています。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor [51.20527342770299]
UMBRELAはオープンソースツールキットで、OpenAIのGPT-4oモデルを使ってThomasらの結果を再現する。
我々のツールキットは、容易に研究できるように設計されており、既存の多段階検索および評価パイプラインに統合することができる。
UMBRELAはTREC 2024RAGトラックで、関連性評価を支援するために使用される。
論文 参考訳(メタデータ) (2024-06-10T17:58:29Z) - Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models [50.11814354654953]
AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
論文 参考訳(メタデータ) (2023-10-26T16:55:05Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Generation of Highlights from Research Papers Using Pointer-Generator
Networks and SciBERT Embeddings [5.095525589147811]
我々は,入力トークンをSciBERT埋め込みにエンコードする入力に,カバレッジ機構を備えたポインタジェネレータネットワークとコンテキスト埋め込み層を用いる。
我々は、ベンチマークデータセットCSPubSumでモデルをテストし、また、自動研究ハイライト生成のための新しい論文の多分野コーパスであるMixSubを提示する。
論文 参考訳(メタデータ) (2023-02-14T12:45:14Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。