論文の概要: The Refutability Gap: Challenges in Validating Reasoning by Large Language Models
- arxiv url: http://arxiv.org/abs/2601.02380v1
- Date: Thu, 18 Dec 2025 14:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.555594
- Title: The Refutability Gap: Challenges in Validating Reasoning by Large Language Models
- Title(参考訳): 難燃性ギャップ:大規模言語モデルによる推論検証の課題
- Authors: Elchanan Mossel,
- Abstract要約: 近年の報告では、Large Language Models (LLM) は、新しい科学を導き、人間レベルの汎用知性を示す能力を達成したと主張している。
このような主張は、ポパーの難燃性の原則を満たさないため、厳密な科学的主張ではないと我々は主張する。
- 参考スコア(独自算出の注目度): 11.210425433215827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reports claim that Large Language Models (LLMs) have achieved the ability to derive new science and exhibit human-level general intelligence. We argue that such claims are not rigorous scientific claims, as they do not satisfy Popper's refutability principle (often termed falsifiability), which requires that scientific statements be capable of being disproven. We identify several methodological pitfalls in current AI research on reasoning, including the inability to verify the novelty of findings due to opaque and non-searchable training data, the lack of reproducibility caused by continuous model updates, and the omission of human-interaction transcripts, which obscures the true source of scientific discovery. Additionally, the absence of counterfactuals and data on failed attempts creates a selection bias that may exaggerate LLM capabilities. To address these challenges, we propose guidelines for scientific transparency and reproducibility for research on reasoning by LLMs. Establishing such guidelines is crucial for both scientific integrity and the ongoing societal debates regarding fair data usage.
- Abstract(参考訳): 近年の報告では、Large Language Models (LLM) は、新しい科学を導き、人間レベルの汎用知性を示す能力を達成したと主張している。
このような主張は、ポパーの難燃性の原則(しばしばファルシフィアビリティと呼ばれる)を満たさないため、厳密な科学的主張ではないと我々は主張する。
我々は、不透明で調査不可能なトレーニングデータによる発見の新規性を検証できないこと、継続的なモデル更新による再現性の欠如、科学的発見の真の源を隠蔽するヒューマン・インタラクション・トランスクリプトの欠如など、推論に関する現在のAI研究における方法論的な落とし穴を識別する。
さらに、失敗した試みに関する反事実やデータがないことは、LLM能力を誇張する選択バイアスを生み出します。
これらの課題に対処するために,LLMによる推論研究のための科学的透明性と再現性に関するガイドラインを提案する。
このようなガイドラインの確立は、科学的完全性と、公正なデータ使用に関する社会的な議論の両立に不可欠である。
関連論文リスト
- Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models [18.850296587858946]
TruthHypoは,真理仮説を生成する上で,大規模言語モデルの能力を評価するためのベンチマークである。
KnowHDは知識に基づく幻覚検出装置で、既存の知識に基づいて仮説がどれだけうまく構築されているかを評価する。
論文 参考訳(メタデータ) (2025-05-20T16:49:40Z) - Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - Grounding Fallacies Misrepresenting Scientific Publications in Evidence [84.32990746227385]
誤検出データセットMisciの拡張であるMisciPlusを紹介する。
MissciPlusは、実世界の誤った証拠と誤った主張を組み合わせ、証拠に基づく事実チェックモデルへの入力と同一である。
以上の結果から,現在の事実チェックモデルでは,誤報を否定するために,誤表現された科学パスを使用するのが困難であることが示唆された。
論文 参考訳(メタデータ) (2024-08-23T03:16:26Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文 参考訳(メタデータ) (2023-11-15T20:42:11Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。