論文の概要: The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems
- arxiv url: http://arxiv.org/abs/2509.08713v1
- Date: Wed, 10 Sep 2025 16:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.485759
- Title: The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems
- Title(参考訳): 自動化すればするほど、AI科学者の隠れた落とし穴
- Authors: Ziming Luo, Atoosa Kasirzadeh, Nihar B. Shah,
- Abstract要約: AI科学者システムは、仮説生成から論文執筆までの完全な研究ワークフローを実行することができる。
この精査の欠如は、研究成果の完全性、信頼性、信頼性を損なう可能性のある欠陥を導入するリスクを生じさせる。
現代のAI科学者システムでは、不適切なベンチマーク選択、データ漏洩、メトリック誤用、ポストホック選択バイアスの4つの潜在的な障害モードを特定している。
- 参考スコア(独自算出の注目度): 11.543423308064275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI scientist systems, capable of autonomously executing the full research workflow from hypothesis generation and experimentation to paper writing, hold significant potential for accelerating scientific discovery. However, the internal workflow of these systems have not been closely examined. This lack of scrutiny poses a risk of introducing flaws that could undermine the integrity, reliability, and trustworthiness of their research outputs. In this paper, we identify four potential failure modes in contemporary AI scientist systems: inappropriate benchmark selection, data leakage, metric misuse, and post-hoc selection bias. To examine these risks, we design controlled experiments that isolate each failure mode while addressing challenges unique to evaluating AI scientist systems. Our assessment of two prominent open-source AI scientist systems reveals the presence of several failures, across a spectrum of severity, which can be easily overlooked in practice. Finally, we demonstrate that access to trace logs and code from the full automated workflow enables far more effective detection of such failures than examining the final paper alone. We thus recommend journals and conferences evaluating AI-generated research to mandate submission of these artifacts alongside the paper to ensure transparency, accountability, and reproducibility.
- Abstract(参考訳): AI科学者システムは、仮説生成や実験から論文執筆まで、完全な研究ワークフローを自律的に実行することが可能であり、科学的発見を加速する大きな可能性を秘めている。
しかし、これらのシステムの内部ワークフローについては、詳しくは検討されていない。
この精査の欠如は、彼らの研究成果の完全性、信頼性、信頼性を損なう可能性のある欠陥を導入するリスクを生じさせる。
本稿では,現代のAI科学者システムにおいて,不適切なベンチマーク選択,データ漏洩,メトリック誤用,ポストホック選択バイアスの4つの障害モードを同定する。
これらのリスクを調べるために、AI科学者システム評価に特有の課題に対処しながら、各障害モードを分離する制御実験を設計した。
オープンソースの2つの著名なAI科学者システムに対する我々の評価は、いくつかの失敗の存在を明らかにしている。
最後に、完全な自動化ワークフローからトレースログとコードにアクセスすることで、最終論文だけで調べるよりもはるかに効果的な障害検出が可能になることを実証する。
したがって、我々は、透明性、説明責任、再現性を確保するために、論文と共にこれらのアーティファクトの提出を義務付けるために、AIが生成した研究を評価するジャーナルやカンファレンスを推薦する。
関連論文リスト
- Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Identity Theft in AI Conference Peer Review [50.18240135317708]
人工知能(AI)研究における科学的ピアレビュープロセスにおいて,新たに発見されたID盗難事例について論じる。
論文評価の操作に不正なレビュアープロファイルを作成することにより、不正直な研究者がピアレビューシステムをどのように活用するかを詳述する。
論文 参考訳(メタデータ) (2025-08-06T02:36:52Z) - Towards Improved Research Methodologies for Industrial AI: A case study of false call reduction [0.0]
本研究は,自動光学検査のための誤呼低減という,産業用AIユースケースのケーススタディを示す。
我々は、関連するピアレビュー作業で発生する7つの弱点を特定し、その結果を実験的に示す。
論文 参考訳(メタデータ) (2025-06-17T13:48:38Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - An Exploratory Study of AI System Risk Assessment from the Lens of Data
Distribution and Uncertainty [4.99372598361924]
ディープラーニング(DL)が推進力となり、多くのドメインやアプリケーションで広く採用されている。
本稿では,データ分布と不確実性角の両方からAIシステムのリスク評価を早期に検討する。
論文 参考訳(メタデータ) (2022-12-13T03:34:25Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。