論文の概要: Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2508.18760v1
- Date: Tue, 26 Aug 2025 07:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.731014
- Title: Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models
- Title(参考訳): 解答不能」に対する答えは, 大規模推論モデルにおける留意障害の分析と緩和である
- Authors: Yi Liu, Xiangyu Liu, Zequn Sun, Wei Hu,
- Abstract要約: 大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な進歩を示している。
LRMは、解決不可能な問題に直面すると、適切な棄権を与えることができないことが分かりました。
本稿では,認知モニタリングと推論時間の介入を組み合わせた,軽量2段階の手法を提案する。
- 参考スコア(独自算出の注目度): 36.56061020865792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have shown remarkable progress on complex reasoning tasks. However, some questions posed to LRMs are inherently unanswerable, such as math problems lacking sufficient conditions. We find that LRMs continually fail to provide appropriate abstentions when confronted with these unanswerable questions. In this paper, we systematically analyze, investigate, and resolve this issue for trustworthy AI. We first conduct a detailed analysis of the distinct response behaviors of LRMs when facing unanswerable questions. Then, we show that LRMs possess sufficient cognitive capabilities to recognize the flaws in these questions. However, they fail to exhibit appropriate abstention behavior, revealing a misalignment between their internal cognition and external response. Finally, to resolve this issue, we propose a lightweight, two-stage method that combines cognitive monitoring with inference-time intervention. Experimental results demonstrate that our method significantly improves the abstention rate while maintaining the overall reasoning performance.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、LRMに課せられるいくつかの疑問は本質的には解決不可能であり、例えば十分な条件が満たされていない数学の問題などである。
これらの疑問に直面すると, LRM が常に適切な棄権を与えるのに失敗することがわかった。
本稿では,信頼に値するAIにおいて,この問題を体系的に分析し,調査し,解決する。
まず, LRMの応答特性について, 解答不能な問題に直面する場合の詳細な解析を行った。
そして, LRMはこれらの疑問の欠陥を認識するのに十分な認知能力を有することを示す。
しかし、適切な禁忌行動は示さず、内的認知と外的反応の相違が明らかになった。
最後に,この問題を解決するために,認知モニタリングと推論時間の介入を組み合わせた,軽量2段階の手法を提案する。
実験結果から,提案手法は全体の推論性能を維持しつつ,吸収率を著しく向上させることが示された。
関連論文リスト
- Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information [21.562453754113072]
大規模推論モデル (LRM) は数学において顕著な問題解決能力を示している。
多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。
このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T06:42:00Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - Are Reasoning Models More Prone to Hallucination? [70.04436965009072]
最近進化した大推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論能力を持つ複雑なタスクを解く上で、強力な性能を示している。
推論モデルは幻覚の傾向が強いか?
本稿では3つの観点からその問題に対処する。
論文 参考訳(メタデータ) (2025-05-29T16:53:41Z) - BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs [87.24843751412783]
本稿では,簡潔かつ境界認識の事実推論を促進するフレームワークであるBARRELを提案する。
BARRELトレーニングにより,DeepSeek-R1-Distill-Llama-8Bの信頼性は39.33%から61.48%向上した。
論文 参考訳(メタデータ) (2025-05-18T07:27:34Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting [0.4662017507844857]
本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。
これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
論文 参考訳(メタデータ) (2024-02-05T00:44:28Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。