論文の概要: MLReplicate: Benchmarking Autonomous Research Systems for Machine Learning Reproducibility
- arxiv url: http://arxiv.org/abs/2605.16616v1
- Date: Fri, 15 May 2026 20:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.806443
- Title: MLReplicate: Benchmarking Autonomous Research Systems for Machine Learning Reproducibility
- Title(参考訳): MLReplicate: 機械学習の再現性のための自律的な研究システムのベンチマーク
- Authors: Sasi Kiran Gaddipati, Diyana Muhammed, Farhana Keya, Gollam Rabby, Sören Auer,
- Abstract要約: 我々は機械学習の自律的な研究システムを評価するエンドツーエンドのベンチマークであるMLReplicateを紹介する。
このベンチマークは、ICML 2025論文から標準化された入力仕様に改定され、6つの最先端の研究システムで評価された。
自動レビューとは対照的に、人間レビュアーは、方法論上の欠陥、幻覚的な実験結果、全てのシステムにまたがる失敗を一貫して特定した。
- 参考スコア(独自算出の注目度): 2.2969445973129123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous research systems capable of generating complete scientific manuscripts have advanced rapidly, yet robust and realistic evaluation frameworks have failed to keep pace. To bridge this gap, we introduce MLReplicate, an end-to-end benchmark evaluating autonomous research systems on machine learning reproducibility. The benchmark was constructed from ICML 2025 outstanding papers reformulated into standardized input specifications and evaluated across 6 state-of-the-art research systems: AI SCIENTIST-V1, AI SCIENTIST-V2, AGENT LABORATORY, CYCLERESEARCHER, AI RESEARCHER, and TINY SCIENTIST, yielding 45 generated manuscripts, with 3 failed experiments. Outputs are assessed using a dual-protocol approach that combines automated conference-style review and structured expert human evaluation, while tracking computational cost, runtime, and the amount of required human intervention. The automated conference-style review accepted 10 out of 37 valid submissions. An additional 8 submissions were desk-rejected before review for failing to meet the minimum page threshold. In contrast to automated reviews, human reviewers consistently identified methodological flaws, hallucinated experimental results, and reproducibility failures across all systems, and 59% of accepted automated reviews contained fabricated or unsupported claims. We further find that neither token budget nor computational cost predicts output quality: the cheapest system outperforms the most resource-intensive system in human evaluation, despite a 38-fold difference in input tokens. We thus demonstrate that autonomous research workflow design matters more than the scale of compute. MLReplicate exposes a substantial gap between current autonomous research systems and genuine scientific rigor, and establishes a practical, extensible evaluation framework for systematic progress toward trustworthy AI-driven scientific discovery.
- Abstract(参考訳): 完全な科学写本を作成できる自律的な研究システムは急速に進歩しているが、堅牢で現実的な評価フレームワークはペースを維持することができなかった。
このギャップを埋めるために、機械学習再現性に関する自律的な研究システムを評価するエンドツーエンドベンチマークであるMLReplicateを導入する。
AI SCIENTIST-V1、AI SCIENTIST-V2、Agens LABORATORY、CYCLEEARCHER、AI RESEARCHER、TINY SCIENTISTの6つの最先端の研究システムで評価され、45個の生成された原稿が得られた。
アウトプットは、自動会議スタイルのレビューと構造化された専門家による人間の評価を組み合わせて、計算コスト、実行時間、必要な人間の介入量をトラッキングするデュアルプロトコールアプローチを用いて評価される。
自動的なカンファレンススタイルのレビューでは、37の有効な応募のうち10が受け入れられた。
さらに8件の提出書がレビュー前に削除され、ページのしきい値に届かなかった。
自動レビューとは対照的に、人間レビュアーは、手法上の欠陥、幻覚的な実験結果、全システムにわたる再現性障害を一貫して特定し、承認された自動レビューの59%は、不正なクレームを含んでいた。
入力トークンの38倍の差があるにもかかわらず、最も安価なシステムは人的評価において最も資源集約的なシステムより優れている。
したがって、自律的な研究ワークフロー設計が計算の規模よりも重要であることを示す。
MLReplicateは、現在の自律的な研究システムと真の科学的厳密さの間に大きなギャップを露呈し、信頼できるAI駆動科学発見に向けた体系的な進歩のための実践的で拡張可能な評価フレームワークを確立する。
関連論文リスト
- AI for Auto-Research: Roadmap & User Guide [107.0834449839233]
研究ライフサイクル全体にわたってAIをエンドツーエンドに分析する。
我々は、信頼できる援助と信頼できない自律性の間に、鋭くステージに依存した境界を特定できる。
障害モードを排除するのではなく、より大きな自動化が不明瞭であることが示されています。
論文 参考訳(メタデータ) (2026-05-18T17:08:26Z) - AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery [49.77172027295716]
AutoSOTAは、トップレベルのAI論文で発表された最新のState-Of-The-Art(SOTA)モデルを進化させるエンドツーエンドの自動研究システムである。
報告された方法を超える新しい105種類のSOTAモデルを発見し、平均して1紙あたり平均5時間である。
論文 参考訳(メタデータ) (2026-04-07T07:52:01Z) - Towards a Medical AI Scientist [73.6056699962416]
私たちは、臨床自律研究に特化した最初の自律的な研究フレームワークである、メディカルAIサイエンティストを紹介します。
このフレームワークは3つの研究モード、すなわち論文ベースの再現、文学にインスパイアされた革新、タスク駆動探索で動作する。
本システムでは,提案手法と実装の密接な整合性を実現するとともに,実行可能実験において極めて高い成功率を示す。
論文 参考訳(メタデータ) (2026-03-30T15:37:25Z) - Pitfalls in Evaluating Interpretability Agents [91.49742416116635]
我々は,実験を反復的に設計し,仮説を洗練するエージェントシステムを構築した。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を実証している。
論文 参考訳(メタデータ) (2026-03-20T16:27:17Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research [0.16174969956296248]
この素早いレビューでは、前臨床生医学研究におけるAIシステムのベンチマークプラクティスについて検討する。
現在のベンチマークから欠落する4つの重要な次元に対処するプロセス指向評価フレームワークが提案されている。
これらの次元は、独立したタスク実行者としてではなく、研究の共同パイロットとしてAIシステムを評価するために不可欠である。
論文 参考訳(メタデータ) (2025-12-04T14:37:46Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。