論文の概要: CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
- arxiv url: http://arxiv.org/abs/2409.11363v1
- Date: Tue, 17 Sep 2024 17:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:37:15.522531
- Title: CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
- Title(参考訳): CORE-Bench: 計算再現性エージェントベンチマークによる出版研究の信頼性向上
- Authors: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan,
- Abstract要約: CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
- 参考スコア(独自算出の注目度): 11.794931453828974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.
- Abstract(参考訳): AIエージェントは、科学研究の実施を含む、さまざまな連続的なタスクでユーザを助ける可能性がある。
有用なエージェントの開発を促進するために、より重要なことは、現実の関心のあるタスクと直接対応できる、挑戦的なベンチマークが必要です。
本稿では,AIエージェントの精度を計測し,計算再現性(Computer reproducibility,Computer reproducibility)という科学的研究の極めて重要な側面に対処するためのベンチマークを紹介する。
このタスクは、科学的なプロセスの基本であり、提供されたコードとデータを使って研究の結果を再現する。
CORE-Bench (Computational Reproducibility Agent Benchmark) は3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
CORE-Benchのタスクは3つの難易度からなり、言語のみと視覚言語の両方を含む。
エージェントの精度を高速かつ並列に測定し、連続的な実装と比較して各実行時の評価時間を短縮する評価システムを提案する。
汎用オートGPTとタスク特異的エージェントであるCORE-Agentの2種類のベースラインエージェントを評価した。
GPT-4oとGPT-4o-miniの2つの基礎言語モデルを用いて両方の変種を検証した。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
既存の作業を再現できるエージェントを持つことは、新しい研究を行い、他の研究エージェントのパフォーマンスを検証し改善できるエージェントを構築するための必要なステップである。
我々は、CORE-Benchが再現性を改善し、将来の研究エージェントの開発を促進することを願っている。
関連論文リスト
- ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。
我々は、各タスクのターゲット出力を、自己完結型のPythonプログラムファイルに統一する。
データ汚染の懸念を軽減するための2つの効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:33:50Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文 参考訳(メタデータ) (2024-07-14T23:52:25Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - Harnessing Pre-trained Generalist Agents for Software Engineering Tasks [13.733085206098258]
深層強化学習(DRL)は、ゲームテストやジョブショップスケジューリング問題の解決といった複雑なタスクの自動化に成功している。
専門のDRLエージェントは、他のタスクへの一般化性の欠如に悩まされており、効果的に開発および再訓練するためのかなりの時間を必要としている。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
論文 参考訳(メタデータ) (2023-12-24T18:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。