論文の概要: Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.18786v1
- Date: Mon, 20 Apr 2026 19:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.458335
- Title: Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
- Title(参考訳): 実験か成果か? : 大規模言語モデルにおける科学的可能性を探る
- Authors: Seyedali Mohammadi, Manas Gaur, Francis Ferraro,
- Abstract要約: 制御された知識条件下での大規模言語モデル(LLM)を評価する。
実験および/または結果コンテキストの一部を除去することで、ロバスト性を調査する。
実験的なエビデンスがLCMベースの実現可能性評価に有効である場合と、脆弱性を導入する場合を明確にする。
- 参考スコア(独自算出の注目度): 17.31622097939325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific feasibility assessment asks whether a claim is consistent with established knowledge and whether experimental evidence could support or refute it. We frame feasibility assessment as a diagnostic reasoning task in which, given a hypothesis, a model predicts feasible or infeasible and justifies its decision. We evaluate large language models (LLMs) under controlled knowledge conditions (hypothesis-only, with experiments, with outcomes, or both) and probe robustness by progressively removing portions of the experimental and/or outcome context. Across multiple LLMs and two datasets, providing outcome evidence is generally more reliable than providing experiment descriptions. Outcomes tend to improve accuracy beyond what internal knowledge alone provides, whereas experimental text can be brittle and may degrade performance when the context is incomplete. These findings clarify when experimental evidence benefits LLM-based feasibility assessment and when it introduces fragility.
- Abstract(参考訳): 科学的可能性評価は、主張が確立された知識と一致しているか、実験的な証拠がそれを支持または反証できるかを問うものである。
フェーザビリティーアセスメントは、仮説が与えられた場合、モデルが実現可能か不可能かを予測し、その決定を正当化する診断的推論タスクである。
制御された知識条件下での大規模言語モデル(LLM)を評価し,実験および/または結果コンテキストの一部を段階的に取り除き,ロバスト性を調査する。
複数のLSMと2つのデータセットにまたがって、結果のエビデンスを提供することは、実験記述を提供することよりも一般的に信頼性が高い。
アウトカムは内部知識だけで提供されるもの以上の精度を改善する傾向があるが、実験的なテキストは脆く、文脈が不完全であれば性能を低下させる可能性がある。
以上の結果から, LLMによる実用性評価が有効である場合と, 脆弱性を導入した場合の問題点が明らかとなった。
関連論文リスト
- IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [136.27567671480156]
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [58.05402364136958]
実験と観測を組み合わせた二重機械学習手法を提案する。
本フレームワークは, より軽度な仮定の下で, 外部の妥当性と無知性に対するファルシフィケーションテストを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Sources of Irreproducibility in Machine Learning: A Review [3.905855359082687]
実験設計の選択と結論に対する潜在的な影響を関連付ける理論的枠組みは存在しない。
本研究の目的は、応用データサイエンスの実践者や研究者が、どのような設計選択が誤った発見につながるかを理解するためのフレームワークを開発することである。
論文 参考訳(メタデータ) (2022-04-15T18:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。