論文の概要: Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information
- arxiv url: http://arxiv.org/abs/2605.28070v1
- Date: Wed, 27 May 2026 07:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.842619
- Title: Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information
- Title(参考訳): 不十分な情報に基づく推論モデルにおける検出・回避ギャップのブリッジ化
- Authors: Renjie Gu, Jiaxu Li, Yihao Wang, Yun Yue, Hansong Xiao, Yefei Chen, Yuan Wang, Chunxiao Guo, Pei Wei, Jinjie Gu, Yixin Cao,
- Abstract要約: 本研究は, 検出不良が最終棄権に変換されない場合に, 検出と回避のギャップを形式化する。
このギャップは、医療AIのようなリスクの高い領域において特に関係しており、不完全な証拠は拒絶よりも有害である可能性がある。
本稿では、モデルに明確な応答可能性のコミットメントを与えるための軌道レベルの推論制御フレームワークであるジャッジ・Then-Then(JTS)を提案する。
- 参考スコア(独自算出の注目度): 24.973717050514207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We highlight a failure mode of large reasoning models on questions with insufficient information: models may recognize that a problem is under-specified, yet still continue reasoning and produce unsupported final answers instead of abstaining. We formalize this mismatch as the detection-to-abstention gap, where detected insufficiency fails to translate into final abstention. This gap is especially concerning in high-risk domains such as medical AI, where answers based on incomplete evidence can be more harmful than refusal. To close this gap, we propose Judge-Then-Solve (JTS), a trajectory-level reasoning-control framework that trains models to make an explicit answerability commitment before solution generation. Rather than treating abstention as a final-answer style, JTS casts it as a control decision: the model either proceeds to solve or terminates early based on its answerability judgment. We instantiate this policy through supervised warm-up and missing-premise reinforcement learning with consistency and length-shaping rewards. Experiments on dense and MoE reasoning models show that JTS substantially improves reliable abstention across datasets and pushes Abstention@Detection (A@D) to near-saturation, indicating that models not only detect missing information but also act on that detection. By terminating unanswerable trajectories immediately after the answerability judgment, JTS reduces unnecessary reasoning and improves inference efficiency when continued deliberation would amplify unsupported assumptions. We also observe that missing-premise training can alter reasoning behavior on difficult but answerable problems, reducing unproductive self-reflection. These results suggest that abstention under insufficient information is a key form of reasoning control for deploying reasoning models safely and efficiently.
- Abstract(参考訳): モデルは、問題が未特定であることを認識しつつも、推論を継続し、棄却するのではなく、サポートされない最終回答を生成します。
我々は、このミスマッチを、検出不能が最終的な棄権に変換できないような、検出と回避のギャップとして定式化する。
このギャップは、医療AIのようなリスクの高い領域において特に関係しており、不完全な証拠に基づく回答は拒絶よりも有害である可能性がある。
このギャップを埋めるために、我々は、ソリューション生成の前に明確な応答可能性のコミットメントをするためにモデルを訓練する軌道レベルの推論制御フレームワークであるジャッジ・テン・ソルブ(JTS)を提案する。
JTSは、棄権を最終回答のスタイルとして扱うのではなく、それを制御上の決定として捉えている。
我々は,この方針を,一貫性と長大な報酬を伴って,温暖化学習と欠落した前提強化学習を通じてインスタンス化する。
高密度およびMoE推論モデルに関する実験は、JTSがデータセット間の信頼性の低下を大幅に改善し、Abstention@Detection(A@D)をほぼ飽和状態にし、モデルが欠落した情報を検知するだけでなく、その検出に作用することを示している。
応答可能性判定の直後に未解決の軌道を終了させることで、JTSは不要な推論を減らし、継続的な検討が望ましくない仮定を増幅するときに推論効率を向上させる。
また,非生産的自己回帰を減らし,難解な問題に対する推論行動を変えることができることも観察した。
これらの結果から,情報不足による抑止は推論モデルの安全かつ効率的に展開するための推論制御の重要な形態であることが示唆された。
関連論文リスト
- Pause or Fabricate? Training Language Models for Grounded Reasoning [50.104657152302956]
不完全情報に基づくグラウンドド推論のために,対話型強化学習(GRIL)によるグラウンドド推論を提案する。
GRILは推論プロセスを2つの段階に分解する: 明確化と一時停止、利用可能な情報が十分かどうかを識別する。
GSM8K-InsufficientおよびMetaMATH-Insufficientの実験では、GRILは前提検出を大幅に改善し(最大45%)、平均応答長を20%以上削減しながらタスク成功率が30%向上した。
論文 参考訳(メタデータ) (2026-04-21T16:45:29Z) - Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。