論文の概要: AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2605.20025v2
- Date: Sat, 23 May 2026 19:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.763869
- Title: AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
- Title(参考訳): AutoResearchClaw: 人間とAIのコラボレーションによる自律的な研究
- Authors: Jiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Meng Chen, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao,
- Abstract要約: 提案するAutoResearchClawは,5つのメカニズムに基づいて構築されたマルチエージェント自律型研究パイプラインである。
25トピックの実験ステージベンチマークであるARC-Benchでは、AutoResearchClawがAI Scientist v2を54.7%上回っている。
- 参考スコア(独自算出の注目度): 175.74514061083195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a \textsc{Pivot}/\textsc{Refine} decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.
- Abstract(参考訳): 科学的発見の自動化には、アイデアから論文を生成する以上のことが必要である。
仮説は複数の視点から挑戦され、実験は失敗し、次の試みを知らせ、サイクルを通して教訓が蓄積される。
既存の自律的な研究システムは、このプロセスを線形パイプラインとしてモデル化することが多い。
仮説生成と結果分析のための構造化されたマルチエージェントの議論、失敗を情報に変換する自己修復エグゼクティブループ、生成した数と幻覚的引用を防ぐ検証結果レポート、完全な自律性から段階的に監視する7つの介入モードによる人間とループのコラボレーション、そして過去の失敗を将来の安全ガードに変換するクロスラン進化の5つのメカニズムに基づいて構築されたマルチエージェント自律型研究パイプラインであるAutoResearchClawを提案する。
25トピックの実験ステージベンチマークであるARC-Benchでは、AutoResearchClawがAI Scientist v2を54.7%上回っている。
7つの介入モードにまたがる人間のループによるアブレーションは、高精度で目標とする高い平均的な決定ポイントでのコラボレーションが、完全な自律性と徹底的なステップバイステップ監視の両方を一貫して上回っていることを明らかにしている。
われわれはAutoResearchClawを、人間の科学的判断に取って代わるのではなく、強化する研究増幅器として位置づけている。
コードはhttps://github.com/aiming-lab/AutoResearchClawで入手できる。
関連論文リスト
- AI for Auto-Research: Roadmap & User Guide [107.0834449839233]
研究ライフサイクル全体にわたってAIをエンドツーエンドに分析する。
我々は、信頼できる援助と信頼できない自律性の間に、鋭くステージに依存した境界を特定できる。
障害モードを排除するのではなく、より大きな自動化が不明瞭であることが示されています。
論文 参考訳(メタデータ) (2026-05-18T17:08:26Z) - AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。
エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。
最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文 参考訳(メタデータ) (2026-04-28T06:05:17Z) - The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion [14.484745002483258]
本稿では, エージェント駆動型自律強化学習研究における四足歩行のケーススタディについて述べる。
エージェントが実行ループの大部分を実行する間、人間はエージェントコーディング環境を通じて高レベルなディレクティブを提供した。
アイザック・ラボのDHAV1 12-DoFで、70以上の実験が14の波に編成され、初期の粗い地形の走行から7回ほどの平均的な報奨を得て、最高に記録された波動12回、exp063回、速度誤差0.263回と97%のタイムアウトを2000回以上行った。
論文 参考訳(メタデータ) (2026-03-28T21:30:04Z) - Towards Execution-Grounded Automated AI Research [106.90422658528819]
実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。
我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。
本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
論文 参考訳(メタデータ) (2026-01-20T22:35:44Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。