Fugu-MT 論文翻訳(概要): The Hallucination Tax of Reinforcement Finetuning

論文の概要: The Hallucination Tax of Reinforcement Finetuning

arxiv url: http://arxiv.org/abs/2505.13988v1
Date: Tue, 20 May 2025 06:36:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.785087
Title: The Hallucination Tax of Reinforcement Finetuning
Title（参考訳）: 強化ファインタニングの幻覚税
Authors: Linxin Song, Taiwei Shi, Jieyu Zhao,
Abstract要約: 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための標準アプローチとなっている。我々は, RFT の批判的副作用について検討し, 幻覚税とはすなわち, モデルが幻覚応答を確実に生成する原因となる拒絶行動の悪化について述べる。以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。
参考スコア（独自算出の注目度）: 11.558277688244354
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement finetuning (RFT) has become a standard approach for enhancing the reasoning capabilities of large language models (LLMs). However, its impact on model trustworthiness remains underexplored. In this work, we identify and systematically study a critical side effect of RFT, which we term the hallucination tax: a degradation in refusal behavior causing models to produce hallucinated answers to unanswerable questions confidently. To investigate this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of unanswerable math problems designed to probe models' ability to recognize an unanswerable question by reasoning from the insufficient or ambiguous information. Our results show that standard RFT training could reduce model refusal rates by more than 80%, which significantly increases model's tendency to hallucinate. We further demonstrate that incorporating just 10% SUM during RFT substantially restores appropriate refusal behavior, with minimal accuracy trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage inference-time compute to reason about their own uncertainty and knowledge boundaries, improving generalization not only to out-of-domain math problems but also to factual question answering tasks.
Abstract（参考訳）: 強化微調整(Reinforcement Finetuning, RFT)は, 大規模言語モデル(LLM)の推論能力を高めるための標準手法となっている。しかし、モデルとしての信頼性への影響は未定である。本研究は, RFT の重要な副作用を同定し, 系統的に研究し, 幻覚税(幻覚税)と呼ぶ。そこで本研究では,SUM(Synthetic Unanswerable Math)を提案する。SUM(Synthetic Unanswerable Math)は,不明瞭な情報や不明瞭な情報からモデルが解答不可能な質問を認識できる能力を調べるために設計された,解答不能な数学問題の高品質データセットである。以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。さらに、RFT中に10%のSUMを組み込むことで、解答可能なタスクに対する最小限の精度で、適切な拒絶動作が大幅に復元されることを示した。重要なことに、このアプローチにより、LLMは推論時計算を利用して、自身の不確実性と知識境界を推論し、ドメイン外の数学問題だけでなく、実際の質問応答タスクにも一般化を改善することができる。

関連論文リスト

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。 SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文参考訳（メタデータ） (2025-06-10T17:02:00Z)
RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality [24.299312059430704]
Unlearningは、スクラッチからトレーニングしたり、全体的なユーティリティを劣化させたりすることなく、モデルから特定の情報を選択的に削除するタスクである。既存の手法は、しばしばデータセットを大規模に忘れ、保持し、不自然な応答、一般化の貧弱、破滅的なユーティリティ損失に悩まされる。本稿では,非学習を拒絶境界最適化問題として定式化する効率的なフレームワークであるReinforcement UnLearning (RULE)を提案する。
論文参考訳（メタデータ） (2025-06-08T14:38:39Z)
Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文参考訳（メタデータ） (2025-02-17T16:10:30Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation [5.255129053741665]
大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
論文参考訳（メタデータ） (2024-07-01T06:11:30Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。