論文の概要: On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2406.12221v1
- Date: Tue, 18 Jun 2024 02:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 22:58:48.351738
- Title: On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation
- Title(参考訳): 幻覚軽減のためのオン・ポリシィききめ細かな知識フィードバック
- Authors: Xueru Wen, Xinyu Lu, Xinyan Guan, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun,
- Abstract要約: 幻覚は、大きな言語モデルが応答生成プロセス中に知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習ベースの手法は、知識境界の検出とインスタンスレベルのフィードバックによるモデル微調整に重点を置いている。
幻覚軽減のための詳細なフィードバックに基づくオンライン強化学習手法である RLFH を紹介する。
- 参考スコア(独自算出の注目度): 47.4953423844154
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hallucination occurs when large language models (LLMs) exhibit behavior that deviates from the boundaries of their knowledge during the response generation process. Previous learning-based methods focus on detecting knowledge boundaries and finetuning models with instance-level feedback, but they suffer from inaccurate signals due to off-policy data sampling and coarse-grained feedback. In this paper, we introduce \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH), a fine-grained feedback-based online reinforcement learning method for hallucination mitigation. Unlike previous learning-based methods, RLFH enables LLMs to explore the boundaries of their internal knowledge and provide on-policy, fine-grained feedback on these explorations. To construct fine-grained feedback for learning reliable generation behavior, RLFH decomposes the outcomes of large models into atomic facts, provides statement-level evaluation signals, and traces back the signals to the tokens of the original responses. Finally, RLFH adopts the online reinforcement algorithm with these token-level rewards to adjust model behavior for hallucination mitigation. For effective on-policy optimization, RLFH also introduces an LLM-based fact assessment framework to verify the truthfulness and helpfulness of atomic facts without human intervention. Experiments on HotpotQA, SQuADv2, and Biography benchmarks demonstrate that RLFH can balance their usage of internal knowledge during the generation process to eliminate the hallucination behavior of LLMs.
- Abstract(参考訳): 幻覚は、大きな言語モデル(LLM)が応答生成プロセス中に知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習ベース手法では、知識境界の検出や、インスタンスレベルのフィードバックによる微調整に重点を置いていたが、非政治的なデータサンプリングや粗い粒度のフィードバックによる不正確な信号に悩まされている。
本稿では, 覚醒緩和のための微粒なフィードバックに基づくオンライン強化学習法である \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH) を紹介する。
従来の学習ベースの手法とは異なり、RLFHはLSMが内部知識の境界を探索し、これらの探索に関する詳細なフィードバックを提供することを可能にする。
信頼性のある生成行動を学ぶためのきめ細かいフィードバックを構築するため、RLFHは大規模モデルの結果を原子事実に分解し、ステートメントレベルの評価信号を提供し、元の応答のトークンに信号をトレースする。
最後に、RLFHはこれらのトークンレベルの報酬とともにオンライン強化アルゴリズムを採用し、幻覚緩和のためのモデル行動を調整する。
RLFHは、効果的な政治最適化のために、人間の介入なしに原子事実の真偽と有用性を検証するLLMベースの事実評価フレームワークも導入している。
HotpotQA, SQuADv2, Biography のベンチマーク実験により, RLFH は生成過程における内部知識の利用のバランスを保ち, LLM の幻覚挙動を排除できることが示された。
関連論文リスト
- Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback [14.120154004011084]
LLM(Large Language Models)はしばしば幻覚と呼ばれる誤った出力を生成する。
知識フィードバックによる強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T08:39:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。