論文の概要: Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
- arxiv url: http://arxiv.org/abs/2601.03315v1
- Date: Tue, 06 Jan 2026 13:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.046262
- Title: Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
- Title(参考訳): LLMがまだ科学者ではない理由:4つの自律的な研究から学んだこと
- Authors: Dhruv Trehan, Paras Chopra,
- Abstract要約: 6つのLSMエージェントのパイプラインを用いてML研究論文を自動生成する4つのエンドツーエンドの試みを事例として報告する。
トレーニングデータのデフォルトに対するバイアス、実行時のプレッシャーによる実装のドリフト、メモリとコンテキストの劣化、明らかな障害にもかかわらず成功を宣言する過剰引用、ドメインインテリジェンス不足、実験設計における科学的味の弱い6つの失敗モードを文書化しています。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report a case study of four end-to-end attempts to autonomously generate ML research papers using a pipeline of six LLM agents mapped to stages of the scientific workflow. Of these four, three attempts failed during implementation or evaluation. One completed the pipeline and was accepted to Agents4Science 2025, an experimental inaugural venue that required AI systems as first authors, passing both human and multi-AI review. From these attempts, we document six recurring failure modes: bias toward training data defaults, implementation drift under execution pressure, memory and context degradation across long-horizon tasks, overexcitement that declares success despite obvious failures, insufficient domain intelligence, and weak scientific taste in experimental design. We conclude by discussing four design principles for more robust AI-scientist systems, implications for autonomous scientific discovery, and we release all prompts, artifacts, and outputs at https://github.com/Lossfunk/ai-scientist-artefacts-v1
- Abstract(参考訳): 本研究では,学術ワークフローの段階にマッピングされた6つのLSMエージェントのパイプラインを用いて,ML研究論文を自律的に生成する4つのエンドツーエンドの試みを事例として報告する。
これら4つの試みのうち、3つの試みは実施または評価中に失敗した。
1つはパイプラインを完了し、Agents4Science 2025に受け入れられた。Agents4Science 2025は、最初の著者としてAIシステムを必要とし、人間とマルチAIの両方のレビューをパスする実験的な最初の会場である。
これらの試みから、トレーニングデータのデフォルトに対するバイアス、実行プレッシャーによる実装のドリフト、長期タスクにおけるメモリとコンテキストの劣化、明らかな障害にもかかわらず成功を宣言する過剰な説明、ドメインインテリジェンス不足、実験設計における科学的味の弱い6つの失敗モードを文書化する。
我々は、より堅牢なAI科学者システムのための4つの設計原則、自律的な科学的発見の意味を議論し、https://github.com/Lossfunk/ai-scientist-artefacts-v1ですべてのプロンプト、アーティファクト、アウトプットをリリースすることで結論付けた。
関連論文リスト
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - ExpVid: A Benchmark for Experiment Video Understanding & Reasoning [65.17173232816818]
科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-10-13T16:45:28Z) - AI Scientists Fail Without Strong Implementation Capability [33.232300349142285]
人工知能(AI)科学者の出現は、科学的発見のパラダイムシフトを表している。
最近のAI Scientist研究は、独立した科学的発見のための十分な能力を示している。
この大きな進歩にもかかわらず、AI Scientistはコンピュータ科学の分野における画期的な成果をまだ生み出していない。
論文 参考訳(メタデータ) (2025-06-02T06:59:10Z) - Evaluating Sakana's AI Scientist: Bold Claims, Mixed Results, and a Promising Future? [20.188659973082643]
サカナは先日,AI Scientistを導入して,自律的に研究を行うこと,すなわち,私たちがARI(Artificial Research Intelligence)と呼ぶものを達成したことを示唆している,と主張している。
AI Scientistの評価は、重大な欠点を明らかにします。
論文 参考訳(メタデータ) (2025-02-20T06:22:03Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.465756130099091]
本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。
我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。
原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
論文 参考訳(メタデータ) (2024-08-12T16:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。