論文の概要: The Hallucination Tax of Reinforcement Finetuning
- arxiv url: http://arxiv.org/abs/2505.13988v1
- Date: Tue, 20 May 2025 06:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.785087
- Title: The Hallucination Tax of Reinforcement Finetuning
- Title(参考訳): 強化ファインタニングの幻覚税
- Authors: Linxin Song, Taiwei Shi, Jieyu Zhao,
- Abstract要約: 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための標準アプローチとなっている。
我々は, RFT の批判的副作用について検討し, 幻覚税とはすなわち, モデルが幻覚応答を確実に生成する原因となる拒絶行動の悪化について述べる。
以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.558277688244354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement finetuning (RFT) has become a standard approach for enhancing the reasoning capabilities of large language models (LLMs). However, its impact on model trustworthiness remains underexplored. In this work, we identify and systematically study a critical side effect of RFT, which we term the hallucination tax: a degradation in refusal behavior causing models to produce hallucinated answers to unanswerable questions confidently. To investigate this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of unanswerable math problems designed to probe models' ability to recognize an unanswerable question by reasoning from the insufficient or ambiguous information. Our results show that standard RFT training could reduce model refusal rates by more than 80%, which significantly increases model's tendency to hallucinate. We further demonstrate that incorporating just 10% SUM during RFT substantially restores appropriate refusal behavior, with minimal accuracy trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage inference-time compute to reason about their own uncertainty and knowledge boundaries, improving generalization not only to out-of-domain math problems but also to factual question answering tasks.
- Abstract(参考訳): 強化微調整(Reinforcement Finetuning, RFT)は, 大規模言語モデル(LLM)の推論能力を高めるための標準手法となっている。
しかし、モデルとしての信頼性への影響は未定である。
本研究は, RFT の重要な副作用を同定し, 系統的に研究し, 幻覚税(幻覚税)と呼ぶ。
そこで本研究では,SUM(Synthetic Unanswerable Math)を提案する。SUM(Synthetic Unanswerable Math)は,不明瞭な情報や不明瞭な情報からモデルが解答不可能な質問を認識できる能力を調べるために設計された,解答不能な数学問題の高品質データセットである。
以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。
さらに、RFT中に10%のSUMを組み込むことで、解答可能なタスクに対する最小限の精度で、適切な拒絶動作が大幅に復元されることを示した。
重要なことに、このアプローチにより、LLMは推論時計算を利用して、自身の不確実性と知識境界を推論し、ドメイン外の数学問題だけでなく、実際の質問応答タスクにも一般化を改善することができる。
関連論文リスト
- Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation [5.255129053741665]
大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。
そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
論文 参考訳(メタデータ) (2024-07-01T06:11:30Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。