Fugu-MT 論文翻訳(概要): ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences

論文の概要: ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences

arxiv url: http://arxiv.org/abs/2602.11354v1
Date: Wed, 11 Feb 2026 20:42:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.535446
Title: ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences
Title（参考訳）: ReplicatorBench:社会・行動科学における再現性のためのLLMエージェントのベンチマーク
Authors: Bang Nguyen, Dominik Soós, Qian Ma, Rochana R. Obadage, Zack Ranjan, Sai Koneru, Timothy M. Errington, Shakhlo Nematova, Sarah Rajtmajer, Jian Wu, Meng Jiang,
Abstract要約: ReplicatorBenchは、3段階にわたる研究レプリケーションにおけるAIエージェントの評価のためのエンドツーエンドのベンチマークである。 ReplicatorAgentは,Web検索やサンドボックス環境との反復的なインタラクションなど,必要なツールを備えたエージェントフレームワークである。 ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。
参考スコア（独自算出の注目度）: 19.81372090301296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The literature has witnessed an emerging interest in AI agents for automated assessment of scientific papers. Existing benchmarks focus primarily on the computational aspect of this task, testing agents' ability to reproduce or replicate research outcomes when having access to the code and data. This setting, while foundational, (1) fails to capture the inconsistent availability of new data for replication as opposed to reproduction, and (2) lacks ground-truth diversity by focusing only on reproducible papers, thereby failing to evaluate an agent's ability to identify non-replicable research. Furthermore, most benchmarks only evaluate outcomes rather than the replication process. In response, we introduce ReplicatorBench, an end-to-end benchmark, including human-verified replicable and non-replicable research claims in social and behavioral sciences for evaluating AI agents in research replication across three stages: (1) extraction and retrieval of replication data; (2) design and execution of computational experiments; and (3) interpretation of results, allowing a test of AI agents' capability to mimic the activities of human replicators in real world. To set a baseline of AI agents' capability, we develop ReplicatorAgent, an agentic framework equipped with necessary tools, like web search and iterative interaction with sandboxed environments, to accomplish tasks in ReplicatorBench. We evaluate ReplicatorAgent across four underlying large language models (LLMs), as well as different design choices of programming language and levels of code access. Our findings reveal that while current LLM agents are capable of effectively designing and executing computational experiments, they struggle with retrieving resources, such as new data, necessary to replicate a claim. All code and data are publicly available at https://github.com/CenterForOpenScience/llm-benchmarking.
Abstract（参考訳）: この文献は、科学論文の自動評価のためのAIエージェントへの関心が高まっているのを目撃している。既存のベンチマークは、主にこのタスクの計算的側面に焦点を当てており、コードやデータにアクセスする際に研究成果を再現または複製するエージェントの能力をテストする。この設定は,(1) 再現とは対照的に, 複製のための新しいデータの一貫性の欠如を捉えることができず, (2) 再現可能な論文のみに焦点をあてて, 実体的多様性を欠くため, 再現不可能な研究を識別するエージェントの能力を評価することができない。さらに、ほとんどのベンチマークは複製プロセスよりも結果のみを評価する。そこで我々は,(1)複製データの抽出と検索,(2)計算実験の設計と実行,(3)実世界における人間の複製者の活動を模倣するAIエージェントの能力のテストを可能にする結果の解釈の3段階にわたる研究複製におけるAIエージェントの評価のための社会・行動科学における人間の検証可能な研究クレームを含む,エンドツーエンドのベンチマークであるReplicatorBenchを紹介した。 ReplicatorBenchのタスクを達成するために、Web検索やサンドボックス環境との反復的なインタラクションといった必要なツールを備えたエージェントフレームワークであるReplicatorAgentを開発した。 ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。その結果,現在のLLMエージェントは,計算実験を効果的に設計・実行することができるが,要求を再現するために必要な新しいデータなどの資源の回収に苦慮していることが明らかとなった。すべてのコードとデータはhttps://github.com/CenterForOpenScience/llm-benchmarking.comで公開されている。

関連論文リスト

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。 Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。 DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。 AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文参考訳（メタデータ） (2026-03-04T18:47:26Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers? [29.17900668495058]
本稿では、フロンティアAIエージェントの評価フレームワークであるReplicationBenchを紹介する。天体物理学の文献から得られた研究論文全体を、エージェントが複製できるかどうかを検査する。 R ReplicationBenchは、論文スケールで専門家が検証した天体物理学の研究タスクの最初のベンチマークを確立している。
論文参考訳（メタデータ） (2025-10-28T16:21:19Z)
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。 22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文参考訳（メタデータ） (2025-10-24T17:10:26Z)
Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。人間の偽造の多様な意図と反復的なプロセスを捉える方法。ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文参考訳（メタデータ） (2025-09-16T01:05:01Z)
REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research? [2.111102681327218]
研究論文を再現するための既存のベンチマークは、提供されたコードとデータを使用した結果の再現のみに焦点を当てている。本稿では112のタスクインスタンスからなるREPRO-Benchについて紹介する。我々はREPRO-Bench上での3つの代表的AIエージェントの評価を行い、最も優れたエージェントは21.4%の精度である。
論文参考訳（メタデータ） (2025-07-25T02:48:30Z)
From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-24T15:39:20Z)
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文参考訳（メタデータ） (2025-05-27T03:15:21Z)
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。 MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文参考訳（メタデータ） (2025-05-26T13:18:37Z)
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。 R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文参考訳（メタデータ） (2025-05-20T06:07:00Z)
ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies [16.90884865239373]
本研究では,研究方法論の体系化を自動化する新しいマルチエージェントシステムであるResearchCodeAgentを紹介する。このシステムは、ハイレベルな研究概念と実践的な実装のギャップを埋める。 ResearchCodeAgentは、研究実施プロセスに向けた重要なステップであり、機械学習研究のペースを加速する可能性がある。
論文参考訳（メタデータ） (2025-04-28T07:18:45Z)
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。エージェントの精度を高速かつ並列に測定する評価システムを提案する。最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文参考訳（メタデータ） (2024-09-17T17:13:19Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。