論文の概要: AI scientists produce results without reasoning scientifically
- arxiv url: http://arxiv.org/abs/2604.18805v1
- Date: Mon, 20 Apr 2026 20:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.473266
- Title: AI scientists produce results without reasoning scientifically
- Title(参考訳): AIの科学者が科学的に推論せずに結果を生み出す
- Authors: Martiño Ríos-García, Nawaf Alampara, Chandan Gupta, Indrajeet Mandal, Sajid Mannan, Ali Asghar Aghajani, N. M. Anoop Krishnan, Kevin Maik Jablonka,
- Abstract要約: 大規模言語モデル(LLM)ベースのシステムは、科学的研究を自律的に行うためにますます多くデプロイされている。
そこで本研究では,8つの領域にまたがるLSMに基づく科学的エージェントの評価を行い,その実行と仮説に基づく調査を行った。
- 参考スコア(独自算出の注目度): 3.100302590436282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくシステムは、科学的研究を自律的に行うためにますます展開されているが、彼らの推論が科学的調査を自己修正する認識規範に固執するかどうかは理解されていない。
ここでは,8つの領域にわたるLLMに基づく科学エージェントの評価を行い,ワークフローの実行から仮説駆動的な調査,25,000以上のエージェントランと2つの補完レンズによる調査を行った。
一 基本モデル及びエージェントの足場からの貢献を分解する系統的性能分析及び
(II)エージェント推論の認識学的構造に関する行動解析
基礎モデルが性能と行動の双方の主要な決定要因であり,足場が1.5%に対して説明的分散の41.4%を占めることが観察された。
あらゆる構成において、痕跡の68%で証拠は無視され、反感駆動の信念修正は26%で発生し、収束した多検定証拠は稀である。
同じ推論パターンは、エージェントが計算ワークフローを実行するか、仮説駆動の問い合わせを行うかのように見える。
エージェントがほぼ完全に成功した推論軌跡を文脈として受け取り、結果として生じる信頼できない化合物が、エピステマティックに要求される領域で繰り返し試行されるときでさえ持続する。
したがって、現在のLSMベースのエージェントは科学的ワークフローを実行するが、科学的推論を特徴付けるてんかんのパターンは示さない。
アウトカムベースの評価はこれらの障害を検出することができず、足場エンジニアリングだけでは修復できない。
推論自体が訓練対象になるまでは、そのようなエージェントが生み出す科学的知識は、それを生成したプロセスによって正当化できない。
関連論文リスト
- Procela: Epistemic Governance in Mechanistic Simulations Under Structural Uncertainty [0.0]
Procelaはシミュレーションが自身の仮定をテストする最初のフレームワークである。
競合する3家族の病院ネットワークでProcela for AMRをインスタンス化する。
その結果、基準値よりも20.4%のエラー削減と69%の累積的後悔改善が得られた。
論文 参考訳(メタデータ) (2026-04-01T09:22:32Z) - Deciphering Scientific Reasoning Steps from Outcome Data for Molecule Optimization [22.850204283344524]
結果から科学的推論を解読するフレームワークであるDESROを提案する。
グループ化されたデータ内の共有パターンと重要な違いを分析することで、大きな言語モデル(LLM)が基盤となるロジックを復元することができる。
我々はこの枠組みを分子最適化において、薬物発見の重要な段階としてインスタンス化する。
論文 参考訳(メタデータ) (2026-03-13T06:25:27Z) - Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse [22.927943525772857]
大規模言語モデル(LLM)上に構築された完全自律型AIアナリストは、同様の構造化された分析的多様性を安価かつ大規模に再現可能であることを示す。
アナリストペルソナやLSMの再割り当ては, 方法論的に不十分なランニングを除いた後でも, 結果の分布をシフトさせる。
論文 参考訳(メタデータ) (2026-02-21T04:10:21Z) - Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis? [1.0966260566122241]
大規模なクラウドシステムの障害は、かなりの財政的損失をもたらします。
大規模言語モデル(LLM)エージェントを活用した根本原因分析(RCA)の自動化
本稿では,LCMをベースとしたRCAエージェントのプロセスレベルの故障解析について述べる。
論文 参考訳(メタデータ) (2026-02-10T16:14:05Z) - IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research [29.469867701731374]
BioDSA-1Kは1029の仮説中心のタスクと1,177の分析計画からなる。
このベンチマークは,(1)仮説決定精度,(2)証拠と結論の整合性,(3)推論過程の正しさ,(4)AI生成解析コードの実行可能性の4つの軸に沿った評価を可能にする。
論文 参考訳(メタデータ) (2025-05-22T01:02:21Z) - Context-Aware Reasoning On Parametric Knowledge for Inferring Causal Variables [49.31233968546582]
本稿では,部分因果グラフの完成を目的とした新しいベンチマークを提案する。
原因と効果の間のバックドア変数を仮説化するLLMの強い能力を示す。
固定された関連性の単純な記憶とは異なり、我々のタスクはグラフ全体のコンテキストに応じてLCMを推論する必要がある。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。