論文の概要: How Far Are We From True Auto-Research?
- arxiv url: http://arxiv.org/abs/2605.19156v1
- Date: Mon, 18 May 2026 22:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.013941
- Title: How Far Are We From True Auto-Research?
- Title(参考訳): 真のオートリサーチからどこまで遠いのか?
- Authors: Zhengxin Zhang, Ning Wang, Sainyam Galhotra, Claire Cardie,
- Abstract要約: ResearchArenaは最小限の足場で、市販のエージェント自身が完全な研究ループを実行できる。
13のコンピュータサイエンスシードとエージェントドメインペア当たりのトライアルで、ResearchArenaは117のエージェント生成論文を生成する。
エージェント生成された117の論文のうち、トップレベルの会場の受け入れバーには到達しない。
- 参考スコア(独自算出の注目度): 20.195549933333222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent auto-research systems can produce complete papers, but feasibility is not the same as quality, and the field still lacks a systematic study of how good agent-generated papers actually are. We introduce ResearchArena, a minimal scaffold that lets off-the-shelf agents (Claude Code using Opus 4.6, Codex using GPT-5.4, and Kimi Code using K2.5) carry out the full research loop themselves (ideation, experimentation, paper writing, self-refinement) under only lightweight guidance. Across 13 computer science seeds and 3 trials per agent-domain pair, ResearchArena yields 117 agent-generated papers, each evaluated under three complementary lenses: a manuscript-only reviewer (SAR), an artifact-aware peer review (PR) in which agents inspect the workspace alongside the manuscript, and an human conducted meta-review. Under SAR alone the picture is optimistic: Claude Code obtains the highest score, outperforms Analemma's FARS, and matches the weighted-average human ICLR 2025 submission, suggesting that minimally scaffolded agents can produce papers that look competitive on manuscript-only review. Manual inspection, however, reveals this picture is overstated: SAR scores are poorly aligned with its actual acceptance decisions and reward plausible framing without verifying experimental substance. Under artifact-aware PR scores drop sharply, and manual auditing identifies experimental rigor as the major bottleneck, decomposing into three failure modes (fabricated results, underpowered experiments, and plan/execution mismatch) that are highly agent-dependent: Codex 5%/8% paper-vs-artifact mismatch / fabricated references versus Kimi Code 77%/72%, a $\sim$15$\times$ spread that tracks distinct research personas the agents develop. None of the 117 agent-generated papers reaches the acceptance bar of a top-tier venue. This suggests that we are still gapped from the true auto-research.
- Abstract(参考訳): 最近の自動調査システムでは、完全な論文を作成できるが、実現性は品質と変わらない。
我々は,市販のエージェント(Opus 4.6を使用したClaude Code,GPT-5.4を使用したCodex,K2.5を使ったKimi Code)が,ライトウェイトガイダンスのみで完全な研究ループ(イデレーション,実験,ペーパーライティング,セルフリファインメント)を実行することができる最小限の足場であるResearchArenaを紹介した。
コンピュータ科学のシード13種とエージェントドメインペアあたりの3つのトライアルのうち、ResearchArenaは117個のエージェント生成論文を、それぞれ3つの補完レンズで評価する。
クロード・コード(Claude Code)はAnalemmaのFARSを上回り、重み付けされた平均的なICLR 2025の提出と一致し、最小限の足場のあるエージェントが原稿のみのレビューで競合する論文を作成できることを示唆している。
SARのスコアは、実験物質を検証せずに実際の受理決定や報奨可能なフレーミングと不一致である。
Codex 5%/8% paper-vs-artifact mismatch / fabricated references vs Kimi Code 77%/72%, $\sim$15$\times$ spread that track different research personas the agent developed。
エージェント生成された117の論文のうち、トップレベルの会場の受け入れバーには到達しない。
これは、我々がまだ真の自動検索から逸脱していることを示唆している。
関連論文リスト
- The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - PRBench: End-to-end Paper Reproduction in Physics Research [32.672534450424386]
PRBenchは、11のサブフィールドにまたがる30の専門家によるタスクのベンチマークである。
エージェントは、タスク命令と紙の内容のみを提供し、サンドボックス実行環境で動作させる。
PRBench上の符号化エージェントのセットを評価し,科学的推論と実行の重要な側面にわたってそれらの能力を分析する。
論文 参考訳(メタデータ) (2026-03-29T11:44:57Z) - NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code [49.610331036334316]
我々はNeRF研究論文をトレーニング可能なNerfstudioプラグインに確実に変換するフレームワークであるNERFIFYを紹介する。
コード、データ、実装が公開される。
論文 参考訳(メタデータ) (2026-02-28T20:57:32Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。