論文の概要: TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25760v1
- Date: Tue, 30 Sep 2025 04:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.425953
- Title: TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
- Title(参考訳): TruthRL:強化学習による真理LLMのインセンティブ化
- Authors: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong,
- Abstract要約: 大型言語モデル (LLM) は幻覚や不合理な反応を起こしやすい。
これは既存手法の根本的な課題である。
本稿では,LLMの真性を直接最適化する汎用強化学習フレームワークTruthRLを提案する。
- 参考スコア(独自算出の注目度): 47.707273133540745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks demand information outside their parametric knowledge. Indeed, truthfulness requires more than accuracy -- models must also recognize uncertainty and abstain when unsure to avoid hallucinations. This presents a fundamental challenge for existing methods: approaches that optimize for accuracy often amplify hallucinations, while those that encourage abstention can become overly conservative, sacrificing correct answers. Both extremes ultimately compromise truthfulness. In this work, we present TruthRL, a general reinforcement learning (RL) framework that directly optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using GRPO with a simple yet effective ternary reward that distinguishes correct answers, hallucinations, and abstentions. It incentivizes models to reduce hallucinations not only by providing correct responses, but also by enabling abstention when uncertain, thereby improving truthfulness. Extensive experiments across four knowledge-intensive benchmarks show that, compared to vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves truthfulness by 21.1%, with consistent gains across various backbone models (e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth ablation study demonstrates that vanilla accuracy-driven methods, such as supervised fine-tuning or RL with a binary reward, struggle to balance factual correctness and uncertainty. In contrast, our proposed truthfulness-driven TruthRL achieves strong performance in both accuracy and truthfulness, underscoring the importance of learning objective design for developing truthful LLMs.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、ファクトイドの質問応答において強いパフォーマンスを示してきたが、特にタスクがパラメトリック知識の外で情報を要求する場合、幻覚や非現実的な応答をまだ起こさない傾向にある。
実際、真実性は正確さ以上のものを必要とします -- モデルはまた、幻覚を避けるために不確実性や不確実性も認識しなければなりません。
精度を最適化するアプローチは、しばしば幻覚を増幅するが、禁忌を奨励するアプローチは、過度に保守的になり、正しい答えを犠牲にする。
両極端とも究極的には真理を損ねる。
本稿では,LLMの真性を直接最適化する汎用強化学習(RL)フレームワークであるTruthRLを提案する。
具体的には,GRPOを用いてTruthRLを実装し,正解,幻覚,棄却を識別する簡便で効果的な3次報酬を付与する。
正しい応答を提供するだけでなく、不確かさを許容することで幻覚を減らすモデルにインセンティブを与え、真実性を向上させる。
4つの知識集約型ベンチマークによる大規模な実験では、バニラRLと比較して、TruthRLは幻覚を28.9%減らし、真理性を21.1%改善し、検索と非検索の両方で様々なバックボーンモデル(例えば、Qwen、Llama)で一貫した利得が得られた。
In-deepth ablation studyでは、教師付き微調整やRLのようなバニラの精度駆動法が二項報酬、事実の正しさと不確実性のバランスをとろうとすることを示した。
対照的に、提案した真理性駆動型TruthRLは、真理性と真理性の両方において高い性能を達成し、真理性LLMを開発するための学習目標設計の重要性を浮き彫りにしている。
関連論文リスト
- From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones [68.68686526804909]
LLMは、既存のスキルを組み込むことで、RL中に真に新しいスキルを身につけることができることを示す。
実験により、ソースタスクで得られた構成スキルが、異なるターゲットタスクに転送されることを示す。
この転送は、ターゲットに対する構成的なトレーニングなしでも行われ、ターゲットの原子スキルに関する事前の知識のみを必要とする。
論文 参考訳(メタデータ) (2025-09-29T17:44:27Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - Quantized but Deceptive? A Multi-Dimensional Truthfulness Evaluation of Quantized LLMs [29.9148172868873]
量子化により、リソース制約のある環境での大規模言語モデル(LLM)の効率的なデプロイが可能になる。
本稿では,量子化LDMの真偽を評価するための総合的な評価フレームワークであるTrathfulnessEvalを紹介する。
量子化モデルは真理表現を内部的に保持するが、誤誘導のプロンプトの下で偽の出力を生成することにはより感受性が高い。
論文 参考訳(メタデータ) (2025-08-26T21:01:45Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。
両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。
直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文 参考訳(メタデータ) (2024-05-02T17:54:54Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。