論文の概要: Rewarding Intellectual Humility Learning When Not To Answer In Large Language Models
- arxiv url: http://arxiv.org/abs/2601.20126v1
- Date: Tue, 27 Jan 2026 23:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.700826
- Title: Rewarding Intellectual Humility Learning When Not To Answer In Large Language Models
- Title(参考訳): 大規模言語モデルに答えられないときの知的謙虚さの学習を振り返る
- Authors: Abha Jha, Akanksha Mahajan, Ashwath Vaithinathan Aravindan, Praveen Saravanan, Sai Sailaja Policharla, Sonal Chaturbhuj Gehlot,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば幻覚的または検証不能なコンテンツを生成し、その信頼性を現実のドメインで損なう。
本研究は,知的謙虚を助長するために,正当性とともに棄権を明言する訓練パラダイムとして,検証リワードを用いた強化学習(RLVR)について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often produce hallucinated or unverifiable content, undermining their reliability in factual domains. This work investigates Reinforcement Learning with Verifiable Rewards (RLVR) as a training paradigm that explicitly rewards abstention ("I don't know") alongside correctness to promote intellectual humility. We fine-tune and evaluate Granite-3.3-2B-Instruct and Qwen-3-4B-Instruct on the MedMCQA and Hendrycks Math benchmarks using a ternary reward structure ($-1$, r_abs, 1) under varying abstention reward structures. We further study the effect of combining RLVR with supervised fine-tuning strategies that teach abstention prior to reinforcement learning. Our results show that moderate abstention rewards (r_abs $\approx -0.25$ to 0.3) consistently reduce incorrect responses without severe accuracy degradation on multiple-choice tasks, with larger models exhibiting greater robustness to abstention incentives. On open-ended question answering, we observe limitations due to insufficient exploration, which can be partially mitigated through supervised abstention training. Overall, these findings demonstrate the feasibility and flexibility of verifiable reward design as a practical approach for hallucination mitigation in language models. Reproducible code for our abstention training framework is available here https://github.com/Mystic-Slice/rl-abstention.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば幻覚的または検証不能なコンテンツを生成し、その信頼性を現実のドメインで損なう。
本研究は、知的謙虚性を促進するための正当性とともに、断念("I don't know")を明確に報奨する訓練パラダイムとして、Reinforcement Learning with Verifiable Rewards (RLVR)を調査した。
MedMCQA と Hendrycks Math ベンチマークのグラナイト-3.3-2B-インストラクトと Qwen-3-4B-インストラクトを3次報酬構造 (-1$, r_abs, 1) を用いて微調整し評価する。
さらに,RLVRと教師付き微調整戦略を組み合わせることで,強化学習に先立って留意を指導する効果について検討した。
以上の結果から,適度な禁忌報酬 (r_abs $\approx -0.25$ to 0.3) は,複数の選択課題において高精度な精度劣化を伴わず,常に不適切な応答を減少させることがわかった。
オープンエンドな質問応答では,探索不足による限界を観察する。
これらの結果は,言語モデルにおける幻覚緩和のための実践的アプローチとして,検証可能な報酬設計の実現可能性と柔軟性を示すものである。
abstentionトレーニングフレームワークの再現可能なコードは、https://github.com/Mystic-Slice/rl-abstention.comで利用可能です。
関連論文リスト
- From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - GRACE: Reinforcement Learning for Grounded Response and Abstention under Contextual Evidence [9.80421132842862]
Retrieval-Augmented Generation (RAG)は、外部知識を統合してLarge Language Models (LLM)を強化する
RAGは、明確な根拠のない正しい答えを提供することと、検索された文脈が不十分な場合に製造された応答を生成するという2つの重大な欠陥に感受性がある。
本稿では,両方の欠陥を同時に軽減する強化学習フレームワークGRACEを提案する。
論文 参考訳(メタデータ) (2026-01-08T02:47:33Z) - Honesty over Accuracy: Trustworthy Language Models through Reinforced Hesitation [12.503662455234954]
現代の言語モデルでは、誤った回答が破滅的な結果をもたらす場合でも、自信ある幻覚が生じることを示す。
RLVR(Reinforceed Hesitation)は,2進法ではなく3進法を用いた強化学習(Reinforcement Learning from Verifiable Rewards, RLVR)の修正である。
論文 参考訳(メタデータ) (2025-11-14T17:20:45Z) - Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality [24.299312059430704]
Unlearningは、スクラッチからトレーニングしたり、全体的なユーティリティを劣化させたりすることなく、モデルから特定の情報を選択的に削除するタスクである。
既存の手法は、しばしばデータセットを大規模に忘れ、保持し、不自然な応答、一般化の貧弱、破滅的なユーティリティ損失に悩まされる。
本稿では,非学習を拒絶境界最適化問題として定式化する効率的なフレームワークであるReinforcement UnLearning (RULE)を提案する。
論文 参考訳(メタデータ) (2025-06-08T14:38:39Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。