論文の概要: When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?
- arxiv url: http://arxiv.org/abs/2602.04755v1
- Date: Wed, 04 Feb 2026 16:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.642019
- Title: When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?
- Title(参考訳): 沈黙は黄金の時 - LLMは一時的なQA以上のことを学ぶことができるか?
- Authors: Xinyu Zhou, Chang Jin, Carsten Eickhoff, Zhijiang Guo, Seyed Ali Bahrainian,
- Abstract要約: 大型言語モデル(LLM)は、しばしば不確実性を認めず、(答えを拒否する)棄却するよりも、しばしば流動的であるが誤解を招く答えを生み出す。
この弱点は、時間差のある証拠や事実を、異なる期間にわたってしばしば無視する時間差質問応答においてさえ明らかである。
キャリブレーションのような既存のアプローチは、複雑な推論において不確実性を捉えるには信頼できないかもしれない。
我々は、禁忌を教育可能なスキルとみなし、禁忌を意識した報酬によって導かれる強化学習(RL)とCoT(Chain-of-Thought)の監督を結びつけるパイプラインを導入する。
- 参考スコア(独自算出の注目度): 34.471723373734605
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) rarely admit uncertainty, often producing fluent but misleading answers, rather than abstaining (i.e., refusing to answer). This weakness is even evident in temporal question answering, where models frequently ignore time-sensitive evidence and conflate facts across different time-periods. In this paper, we present the first empirical study of training LLMs with an abstention ability while reasoning about temporal QA. Existing approaches such as calibration might be unreliable in capturing uncertainty in complex reasoning. We instead frame abstention as a teachable skill and introduce a pipeline that couples Chain-of-Thought (CoT) supervision with Reinforcement Learning (RL) guided by abstention-aware rewards. Our goal is to systematically analyze how different information types and training techniques affect temporal reasoning with abstention behavior in LLMs. Through extensive experiments studying various methods, we find that RL yields strong empirical gains on reasoning: a model initialized by Qwen2.5-1.5B-Instruct surpasses GPT-4o by $3.46\%$ and $5.80\%$ in Exact Match on TimeQA-Easy and Hard, respectively. Moreover, it improves the True Positive rate on unanswerable questions by $20\%$ over a pure supervised fine-tuned (SFT) variant. Beyond performance, our analysis shows that SFT induces overconfidence and harms reliability, while RL improves prediction accuracy but exhibits similar risks. Finally, by comparing implicit reasoning cues (e.g., original context, temporal sub-context, knowledge graphs) with explicit CoT supervision, we find that implicit information provides limited benefit for reasoning with abstention. Our study provides new insights into how abstention and reasoning can be jointly optimized, providing a foundation for building more reliable LLMs.
- Abstract(参考訳): 大型言語モデル (LLM) は不確実性を認めることは滅多になく、しばしば控える(つまり、答えを拒否する)のではなく、流動的であるが誤解を招く答えを生み出す。
この弱点は、時間に敏感な証拠をしばしば無視し、異なる期間にわたって事実を詳述する時間的質問応答においても明らかである。
本稿では, 時間的QAを推論しながら, 抑止能力を有するLDMのトレーニングに関する最初の実証的研究について述べる。
キャリブレーションのような既存のアプローチは、複雑な推論において不確実性を捉えるには信頼できないかもしれない。
代わりに、禁断を教育可能なスキルとして捉え、禁断の報酬によって導かれる強化学習(Reinforcement Learning、RL)とCoT(Chain-of-Thought)の監督を結合するパイプラインを導入します。
我々のゴールは、異なる情報タイプや訓練手法がLLMの時間的推論にどのように影響するかを体系的に分析することである。
Qwen2.5-1.5B-Instructによって初期化されたモデルは、それぞれ3.46 %$と5.80 %$のGPT-4oを超える。
さらに、純粋な教師付き微調整(SFT)の変種に対して、未解決の質問に対する正の正の率を20\%の値で改善する。
分析の結果,SFTは過信を誘発し信頼性を損なう一方,RLは予測精度を向上するが,同様のリスクが生じることがわかった。
最後に、暗黙的推論の手がかり(例えば、原文の文脈、時間的サブコンテキスト、知識グラフ)を明示的なCoTの監督と比較することにより、暗黙的な情報によって断固とした推論のメリットが制限されることが分かる。
本研究は,より信頼性の高いLCMを構築するための基盤として,禁忌と推論を協調的に最適化する方法について,新たな知見を提供する。
関連論文リスト
- Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization [47.04132451658664]
我々の能力は、数学的および自由形式の自然推論のタスクにおいて、教師付きと競合する性能を達成します。
教師付き信号がなければ、Qwen2.5-Math-7B Baseの精度は30.7%から48.1%に向上する。
論文 参考訳(メタデータ) (2025-04-08T08:48:51Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。
本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。
提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文 参考訳(メタデータ) (2023-11-15T17:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。