論文の概要: On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2406.12221v2
- Date: Mon, 17 Feb 2025 05:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:30.786295
- Title: On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation
- Title(参考訳): 幻覚軽減のための微粒な知識フィードバックを用いたオンライン自己アライメント
- Authors: Xueru Wen, Xinyu Lu, Xinyan Guan, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun,
- Abstract要約: 幻覚は、大きな言語モデルが応答生成時の知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習に基づく手法はモデルを微調整しようとするが、非政治的なサンプリングと粗い粒度のフィードバックによって制限される。
RLFHは、LLMが自らの知識境界と自己正しい生成挙動を積極的に探求することを可能にする、政治上の自己調整手法である。
- 参考スコア(独自算出の注目度): 47.4953423844154
- License:
- Abstract: Hallucination occurs when large language models exhibit behavior that deviates from the boundaries of their knowledge during response generation. To address this critical issue, previous learning-based methods attempt to finetune models but are limited by off-policy sampling and coarse-grained feedback. In this paper, we present \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH), an on-policy self-alignment approach that enables LLMs to actively explore their knowledge boundaries and self-correct generation behavior through fine-grained feedback signals. RLFH introduces a self-assessment framework where the policy serves as its own judge. Through this framework, responses are automatically decomposed into atomic facts and their truthfulness and informativeness are assessed against external knowledge sources. The resulting fine-grained feedback at the statement level are then converted into token-level dense reward signals. This enables online reinforcement learning to achieve precise and timely optimization without human intervention. Comprehensive evaluations on HotpotQA, SQuADv2, and Biography benchmarks validate RLFH's effectiveness in hallucination mitigation.
- Abstract(参考訳): 幻覚は、大きな言語モデルが応答生成時の知識の境界から逸脱する振る舞いを示すときに起こる。
この重要な問題に対処するため、従来の学習ベースの手法はモデルを微調整しようとするが、非政治的なサンプリングと粗い粒度のフィードバックによって制限される。
本稿では, LLM の知識境界と自己補正動作を, きめ細かなフィードバック信号を通じて積極的に探索する, 自己アライメント・アプローチである RLFH (RolfH) について述べる。
RLFHは自己評価フレームワークを導入し、ポリシーは独自の裁判官として機能する。
この枠組みを通じて、応答は自動的に原子的な事実に分解され、その真理性と情報性は外部の知識源に対して評価される。
その結果、ステートメントレベルでのきめ細かいフィードバックはトークンレベルの高密度報酬信号に変換される。
これにより、オンライン強化学習は、人間の介入なしに正確でタイムリーな最適化を達成できる。
HotpotQA, SQuADv2, Biographyベンチマークの総合評価により, RLFHの幻覚軽減効果が検証された。
関連論文リスト
- Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback [14.120154004011084]
LLM(Large Language Models)はしばしば幻覚と呼ばれる誤った出力を生成する。
知識フィードバックによる強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T08:39:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。