論文の概要: Knowing When Not to Answer: Abstention-Aware Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2602.14189v1
- Date: Sun, 15 Feb 2026 15:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.687929
- Title: Knowing When Not to Answer: Abstention-Aware Scientific Reasoning
- Title(参考訳): 答えるべきでないことを知る: 科学的推論
- Authors: Samir Abdaljalil, Erchin Serpedin, Hasan Kurban,
- Abstract要約: 科学的条件下では、支持または不確実な結論は、棄権するよりも有害である。
本稿では,この問題に対して,留意点を考慮した検証フレームワークを用いて検討する。
我々はこのフレームワークをSciFactとPubMedQAの2つの科学的ベンチマークで評価した。
- 参考スコア(独自算出の注目度): 2.680633756465714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used to answer and verify scientific claims, yet existing evaluations typically assume that a model must always produce a definitive answer. In scientific settings, however, unsupported or uncertain conclusions can be more harmful than abstaining. We study this problem through an abstention-aware verification framework that decomposes scientific claims into minimal conditions, audits each condition against available evidence using natural language inference (NLI), and selectively decides whether to support, refute, or abstain. We evaluate this framework across two complementary scientific benchmarks: SciFact and PubMedQA, covering both closed-book and open-domain evidence settings. Experiments are conducted with six diverse language models, including encoder-decoder, open-weight chat models, and proprietary APIs. Across all benchmarks and models, we observe that raw accuracy varies only modestly across architectures, while abstention plays a critical role in controlling error. In particular, confidence-based abstention substantially reduces risk at moderate coverage levels, even when absolute accuracy improvements are limited. Our results suggest that in scientific reasoning tasks, the primary challenge is not selecting a single best model, but rather determining when available evidence is sufficient to justify an answer. This work highlights abstention-aware evaluation as a practical and model-agnostic lens for assessing scientific reliability, and provides a unified experimental basis for future work on selective reasoning in scientific domains. Code is available at https://github.com/sabdaljalil2000/ai4science .
- Abstract(参考訳): 大規模な言語モデルは、科学的な主張に答え、検証するためにますます使われていますが、既存の評価では、モデルは常に決定的な答えを生成しなければならないと仮定しています。
しかし、科学的設定では、支持できない、あるいは不確実な結論は、棄権するよりも有害である可能性がある。
本研究では, 科学的主張を最小限の条件に分解し, 自然言語推論(NLI)を用いて各条件を検証し, 支持, 反感, 棄権の有無を選択的に判定する。
我々はこのフレームワークをSciFactとPubMedQAの2つの相補的な科学ベンチマークで評価し、クローズドブックとオープンドメインのエビデンス設定の両方をカバーする。
実験は、エンコーダデコーダ、オープンウェイトチャットモデル、プロプライエタリAPIを含む6つの多様な言語モデルで実施されている。
すべてのベンチマークやモデルにおいて、アーキテクチャ全体において生の精度はわずかにしか変化しないのに対し、禁忌はエラーを制御する上で重要な役割を担っている。
特に、信頼性に基づく禁忌は、絶対精度の改善が制限された場合でも、適度な範囲でのリスクを著しく低減する。
この結果から, 科学的推論タスクにおいては, 一つの最良のモデルを選択するのではなく, 解答を正当化するのに十分な証拠が得られているかどうかを判断することが主な課題であることが示唆された。
この研究は、科学的信頼性を評価するための実用的でモデルに依存しないレンズとして、禁忌意識の評価を強調し、科学領域における選択的推論に関する将来の研究に統一的な実験基盤を提供する。
コードはhttps://github.com/sabdaljalil2000/ai4scienceで公開されている。
関連論文リスト
- SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - AlignCheck: a Semantic Open-Domain Metric for Factual Consistency Assessment [0.0]
ドメイン内およびオープンドメインテキストの事実整合性評価のための解釈可能なフレームワークを提案する。
提案手法では,テキストをアトミックな事実に分解し,フレキシブルでスキーマフリーな手法を導入する。
一般的な一般的なデータセットと臨床データセットにアプローチをベンチマークし、事実認識モデルトレーニングをサポートするためにコードをリリースします。
論文 参考訳(メタデータ) (2025-12-03T10:14:31Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Testing Causality in Scientific Modelling Software [0.26388783516590225]
Causal Testing Frameworkは、Causal Inferenceテクニックを使用して、既存のデータから因果効果を確立するフレームワークである。
実世界の科学モデルをカバーする3つのケーススタディとして、Causal Testing Frameworkがいかにメタモルフィックテストの結果を推測できるかを示す。
論文 参考訳(メタデータ) (2022-09-01T10:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。