論文の概要: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
- arxiv url: http://arxiv.org/abs/2510.17733v1
- Date: Mon, 20 Oct 2025 16:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.535525
- Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
- Title(参考訳): 真理・技能維持のための列車:二項検索強化リワードは幻覚を緩和する
- Authors: Tong Chen, Akari Asai, Luke Zettlemoyer, Hannaneh Hajishirzi, Faeze Brahman,
- Abstract要約: 新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
- 参考スコア(独自算出の注目度): 103.16279860448874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often generate factually incorrect information unsupported by their training data, a phenomenon known as extrinsic hallucination. Existing mitigation approaches often degrade performance on open-ended generation and downstream tasks, limiting their practical utility. We propose an online reinforcement learning method using a novel binary retrieval-augmented reward (RAR) to address this tradeoff. Unlike continuous reward schemes, our approach assigns a reward of one only when the model's output is entirely factually correct, and zero otherwise. We evaluate our method on Qwen3 reasoning models across diverse tasks. For open-ended generation, binary RAR achieves a 39.3% reduction in hallucination rates, substantially outperforming both supervised training and continuous-reward RL baselines. In short-form question answering, the model learns calibrated abstention, strategically outputting "I don't know" when faced with insufficient parametric knowledge. This yields 44.4% and 21.7% fewer incorrect answers on PopQA and GPQA, respectively. Crucially, these factuality gains come without performance degradation on instruction following, math, or code, whereas continuous-reward RL, despite improving factuality, induces quality regressions.
- Abstract(参考訳): 言語モデルは、内在幻覚と呼ばれる現象であるトレーニングデータによって、事実的に誤った情報を生成することが多い。
既存の緩和アプローチは、しばしばオープンエンド世代とダウンストリームタスクのパフォーマンスを低下させ、実用性を制限する。
本稿では,このトレードオフに対応するために,新たなバイナリ検索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
連続的な報酬スキームとは異なり、我々の手法はモデルの出力が完全に正しくなければゼロである場合にのみ1の報酬を割り当てる。
各種タスクを対象としたQwen3推論モデルの評価を行った。
オープンエンド世代では、バイナリRARは幻覚率を39.3%削減し、教師付きトレーニングと継続的回帰RLベースラインの両方を著しく上回っている。
短時間の質問応答では、モデルは校正された棄権を学び、パラメトリック知識が不足している場合に「私は知らない」と戦略的に出力する。
これはそれぞれ、PopQAとGPQAの誤った回答を44.4%、21.7%減少させる。
重要なことに、これらの事実性の向上は命令、数学、コードのパフォーマンスの劣化を伴わず、一方、連続回帰RLは事実性を改善したにもかかわらず、品質の低下を引き起こす。
関連論文リスト
- Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - SR-Reward: Taking The Path More Traveled [8.818066308133108]
オフラインでのデモンストレーションから報酬関数を直接学習する新しい手法を提案する。
従来の逆強化学習(IRL)とは異なり,本手法は学習者の方針から報酬関数を分離する。
textitSR-Rewardと呼ばれる我々の報酬関数は、後継表現(SR)を利用して、実証ポリシーと遷移ダイナミクスの下で期待される将来の状態の訪問に基づいて状態をエンコードする。
論文 参考訳(メタデータ) (2025-01-04T16:21:10Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。