論文の概要: On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2406.12221v1
- Date: Tue, 18 Jun 2024 02:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 22:58:48.351738
- Title: On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation
- Title(参考訳): 幻覚軽減のためのオン・ポリシィききめ細かな知識フィードバック
- Authors: Xueru Wen, Xinyu Lu, Xinyan Guan, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun,
- Abstract要約: 幻覚は、大きな言語モデルが応答生成プロセス中に知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習ベースの手法は、知識境界の検出とインスタンスレベルのフィードバックによるモデル微調整に重点を置いている。
幻覚軽減のための詳細なフィードバックに基づくオンライン強化学習手法である RLFH を紹介する。
- 参考スコア(独自算出の注目度): 47.4953423844154
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hallucination occurs when large language models (LLMs) exhibit behavior that deviates from the boundaries of their knowledge during the response generation process. Previous learning-based methods focus on detecting knowledge boundaries and finetuning models with instance-level feedback, but they suffer from inaccurate signals due to off-policy data sampling and coarse-grained feedback. In this paper, we introduce \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH), a fine-grained feedback-based online reinforcement learning method for hallucination mitigation. Unlike previous learning-based methods, RLFH enables LLMs to explore the boundaries of their internal knowledge and provide on-policy, fine-grained feedback on these explorations. To construct fine-grained feedback for learning reliable generation behavior, RLFH decomposes the outcomes of large models into atomic facts, provides statement-level evaluation signals, and traces back the signals to the tokens of the original responses. Finally, RLFH adopts the online reinforcement algorithm with these token-level rewards to adjust model behavior for hallucination mitigation. For effective on-policy optimization, RLFH also introduces an LLM-based fact assessment framework to verify the truthfulness and helpfulness of atomic facts without human intervention. Experiments on HotpotQA, SQuADv2, and Biography benchmarks demonstrate that RLFH can balance their usage of internal knowledge during the generation process to eliminate the hallucination behavior of LLMs.
- Abstract(参考訳): 幻覚は、大きな言語モデル(LLM)が応答生成プロセス中に知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習ベース手法では、知識境界の検出や、インスタンスレベルのフィードバックによる微調整に重点を置いていたが、非政治的なデータサンプリングや粗い粒度のフィードバックによる不正確な信号に悩まされている。
本稿では, 覚醒緩和のための微粒なフィードバックに基づくオンライン強化学習法である \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH) を紹介する。
従来の学習ベースの手法とは異なり、RLFHはLSMが内部知識の境界を探索し、これらの探索に関する詳細なフィードバックを提供することを可能にする。
信頼性のある生成行動を学ぶためのきめ細かいフィードバックを構築するため、RLFHは大規模モデルの結果を原子事実に分解し、ステートメントレベルの評価信号を提供し、元の応答のトークンに信号をトレースする。
最後に、RLFHはこれらのトークンレベルの報酬とともにオンライン強化アルゴリズムを採用し、幻覚緩和のためのモデル行動を調整する。
RLFHは、効果的な政治最適化のために、人間の介入なしに原子事実の真偽と有用性を検証するLLMベースの事実評価フレームワークも導入している。
HotpotQA, SQuADv2, Biography のベンチマーク実験により, RLFH は生成過程における内部知識の利用のバランスを保ち, LLM の幻覚挙動を排除できることが示された。
関連論文リスト
- Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection [39.52923659121416]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。