論文の概要: Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results
- arxiv url: http://arxiv.org/abs/2604.21965v1
- Date: Thu, 23 Apr 2026 17:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.223959
- Title: Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results
- Title(参考訳): 論文を読んで、コードを書きます:社会科学結果のエージェント的再現
- Authors: Benjamin Kohler, David Zollikofer, Johanna Einsiedler, Alexander Hoyle, Elliott Ash,
- Abstract要約: 論文から構造化された方法記述を抽出するエージェント再生システムを開発した。
エージェントは元のコードや結果、あるいは紙を見ることはない。
エラー帰属ステップは、根本原因を特定するためにシステムチェーンをトレースする。
- 参考スコア(独自算出の注目度): 46.81245843451412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has used LLM agents to reproduce empirical social science results with access to both the data and code. We broaden this scope by asking: Can they reproduce results given only a paper's methods description and original data? We develop an agentic reproduction system that extracts structured methods descriptions from papers, runs reimplementations under strict information isolation -- agents never see the original code, results, or paper -- and enables deterministic, cell-level comparison of reproduced outputs to the original results. An error attribution step traces discrepancies through the system chain to identify root causes. Evaluating four agent scaffolds and four LLMs on 48 papers with human-verified reproducibility, we find that agents can largely recover published results, but performance varies substantially between models, scaffolds, and papers. Root cause analysis reveals that failures stem both from agent errors and from underspecification in the papers themselves.
- Abstract(参考訳): 近年の研究では、LLMエージェントを使用して、データとコードの両方にアクセスして経験的な社会科学結果の再現を行っている。
論文のメソッド記述とオリジナルデータだけで結果を再現できますか?
我々は,論文から構造化されたメソッド記述を抽出し,厳密な情報隔離の下で再実装を行うエージェント再生システムを開発した。
エラー帰属ステップは、システムチェーンを介して不一致をトレースし、根本原因を特定する。
人為的な再現性を有する48枚の紙上で4つのエージェントの足場と4つのLCMを評価し, エージェントが大半を回復できるが, 性能はモデル, 足場, 紙間で大きく異なる。
根本原因分析は、失敗はエージェントエラーと、論文自体の過小評価の両方に起因することを明らかにしている。
関連論文リスト
- Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework [82.66443886385125]
ペーパーサークル(Paper Circle)は、学術文献の発見、評価、整理、理解に必要な労力を減らすために設計された発見・分析システムである。
1)複数のソースからのオフラインおよびオンライン検索を統合するディスカバリパイプライン,多エージェントスコアリング,多様性対応ランキング,構造化アウトプット,2)個々の論文を概念,メソッド,数値などの型付きノードで構造化された知識グラフに変換する分析パイプライン,の2つの補完パイプラインで構成されている。
論文 参考訳(メタデータ) (2026-04-07T17:59:58Z) - ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences [19.81372090301296]
ReplicatorBenchは、3段階にわたる研究レプリケーションにおけるAIエージェントの評価のためのエンドツーエンドのベンチマークである。
ReplicatorAgentは,Web検索やサンドボックス環境との反復的なインタラクションなど,必要なツールを備えたエージェントフレームワークである。
ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。
論文 参考訳(メタデータ) (2026-02-11T20:42:10Z) - Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches [0.3637090866781549]
計算研究の再現は、提供されたデータで元のコードを再実行するのと同じくらい単純であるとしばしば考えられている。
本研究では,大規模な言語モデルとAIエージェントが,そのような障害の診断と修復を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T11:59:59Z) - Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents [24.762629506054125]
本稿では,研究論文をAIエージェントに変換する自動フレームワークPaper2Agentを紹介する。
Paper2Agentは、受動的アーティファクトから研究成果を、下流の使用、導入、発見を加速できるアクティブシステムに変換する。
論文 参考訳(メタデータ) (2025-09-08T17:28:42Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - A Study on Reproducibility and Replicability of Table Structure
Recognition Methods [3.8366337377024298]
テーブル構造認識(TSR)における16論文のコーパスと複製性について検討する。
研究対象は16論文中4論文のみである。
新しいデータセットを使って複製可能な紙は見当たらない。
論文 参考訳(メタデータ) (2023-04-20T16:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。