論文の概要: InstructRAG: Instructing Retrieval-Augmented Generation with Explicit Denoising
- arxiv url: http://arxiv.org/abs/2406.13629v1
- Date: Wed, 19 Jun 2024 15:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 19:14:23.511524
- Title: InstructRAG: Instructing Retrieval-Augmented Generation with Explicit Denoising
- Title(参考訳): InstructRAG:Explicit Denoisingによる検索拡張ジェネレーションの指導
- Authors: Zhepei Wei, Wei-Lin Chen, Yu Meng,
- Abstract要約: InstructRAGを提案する。そこでは、LMが自己合成的理性を通して認知過程を明示的に学習する。
インストラクションRAGは追加の監視を必要としないため、予測された回答の検証が容易になる。
実験によると、InstructRAGはトレーニング不要とトレーニング可能な両方のシナリオにおいて、既存のRAGメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 14.655518998487237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) has shown promising potential to enhance the accuracy and factuality of language models (LMs). However, imperfect retrievers or noisy corpora can introduce misleading or even erroneous information to the retrieved contents, posing a significant challenge to the generation quality. Existing RAG methods typically address this challenge by directly predicting final answers despite potentially noisy inputs, resulting in an implicit denoising process that is difficult to interpret and verify. On the other hand, the acquisition of explicit denoising supervision is often costly, involving significant human efforts. In this work, we propose InstructRAG, where LMs explicitly learn the denoising process through self-synthesized rationales -- First, we instruct the LM to explain how the ground-truth answer is derived from retrieved documents. Then, these rationales can be used either as demonstrations for in-context learning of explicit denoising or as supervised fine-tuning data to train the model. Compared to standard RAG approaches, InstructRAG requires no additional supervision, allows for easier verification of the predicted answers, and effectively improves generation accuracy. Experiments show InstructRAG consistently outperforms existing RAG methods in both training-free and trainable scenarios, achieving a relative improvement of 8.3% over the best baseline method on average across five knowledge-intensive benchmarks. Extensive analysis indicates that InstructRAG scales well with increased numbers of retrieved documents and consistently exhibits robust denoising ability even in out-of-domain datasets, demonstrating strong generalizability.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は言語モデル(LM)の精度と事実性を向上する有望な可能性を示している。
しかし、不完全な検索者やノイズの多いコーパスは、検索した内容に誤った情報や誤った情報をもたらす可能性があり、生成品質に重大な課題を生じさせる。
既存のRAGメソッドは、潜在的にノイズの多い入力にもかかわらず、最終的な答えを直接予測することで、この課題に対処する。
一方、明示的な先導的監督の獲得は、しばしば人的努力を伴ってコストがかかる。
そこで本研究では,自己合成的理性を通して,LMが明示的に認知過程を学習するインストラクタRAGを提案する。
次に、これらの合理性は、明示的な認知のコンテキスト内学習のデモンストレーションとして、あるいはモデルをトレーニングするための教師付き微調整データとして、使用することができる。
標準的なRAGアプローチと比較して、InstructRAGは追加の監視を必要としないため、予測された回答の検証が容易になり、生成精度が効果的に向上する。
実験の結果、InstructRAGはトレーニングのないシナリオとトレーニング可能なシナリオの両方において既存のRAGメソッドを一貫して上回っており、5つの知識集約ベンチマークで、最高のベースラインメソッドに対して8.3%の相対的な改善を実現している。
拡張解析により、InstructRAGは検索された文書の数の増加とともにスケールし、ドメイン外のデータセットでも頑健な復調能力を示し、強力な一般化性を示している。
関連論文リスト
- LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。
VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文 参考訳(メタデータ) (2024-09-18T16:10:47Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Per-Example Gradient Regularization Improves Learning Signals from Noisy
Data [25.646054298195434]
実験的な証拠は、勾配正則化技術は、ノイズの多い摂動に対するディープラーニングモデルの堅牢性を著しく向上させることができることを示唆している。
本稿では,騒音摂動に対する試験誤差とロバスト性の両方を改善することの有効性を理論的に示す。
解析の結果,PEGRはパターン学習の分散をペナルティ化し,学習データからの雑音の記憶を効果的に抑制することがわかった。
論文 参考訳(メタデータ) (2023-03-31T10:08:23Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。