論文の概要: The Power of Noise: Redefining Retrieval for RAG Systems
- arxiv url: http://arxiv.org/abs/2401.14887v2
- Date: Mon, 29 Jan 2024 18:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 11:32:08.782539
- Title: The Power of Noise: Redefining Retrieval for RAG Systems
- Title(参考訳): 騒音のパワー:RAGシステムのための検索の再定義
- Authors: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone
Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio
Silvestri
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは従来のLarge Language Models (LLM) よりも大幅に進歩している。
本稿では,有効なRAGのプロンプト定式化のために,検索者が保持すべき特徴について分析する。
無関係な文書を含むと、予想外に30%以上の精度で性能を向上できることがわかった。
- 参考スコア(独自算出の注目度): 20.22211173429561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems represent a significant
advancement over traditional Large Language Models (LLMs). RAG systems enhance
their generation ability by incorporating external data retrieved through an
Information Retrieval (IR) phase, overcoming the limitations of standard LLMs,
which are restricted to their pre-trained knowledge and limited context window.
Most research in this area has predominantly concentrated on the generative
aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and
critically analyzing the influence of IR components on RAG systems. This paper
analyzes which characteristics a retriever should possess for an effective
RAG's prompt formulation, focusing on the type of documents that should be
retrieved. We evaluate various elements, such as the relevance of the documents
to the prompt, their position, and the number included in the context. Our
findings reveal, among other insights, that including irrelevant documents can
unexpectedly enhance performance by more than 30% in accuracy, contradicting
our initial assumption of diminished quality. These results underscore the need
for developing specialized strategies to integrate retrieval with language
generation models, thereby laying the groundwork for future research in this
field.
- Abstract(参考訳): 検索型世代 (rag) システムは従来の大規模言語モデル (llm) を大きく上回っている。
RAGシステムは、情報検索(IR)フェーズを通じて取得した外部データを組み込んで、事前訓練された知識と限られたコンテキストウインドウに制限された標準LLMの制限を克服することで、生成能力を向上する。
この分野のほとんどの研究は、RAGシステム内のLLMの生成的側面に主に集中している。
本研究は、IR成分がRAGシステムに与える影響を徹底的かつ批判的に分析することによって、このギャップを埋めるものである。
本稿では,検索すべき文書の種類に焦点をあてて,レトリバーが有効なragのプロンプト定式化のために持つべき特性を分析する。
我々は,プロンプトに対する文書の関連性,その位置,文脈に含まれる数など,様々な要素を評価した。
以上の結果から,無関係な文書を含むことにより,品質低下の最初の仮定と矛盾する精度が30%以上向上する可能性が示唆された。
これらの結果は,検索を言語生成モデルと統合する特殊な戦略を開発する必要性を浮き彫りにして,今後の研究の基盤となる。
関連論文リスト
- LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - ARAGOG: Advanced RAG Output Grading [44.99833362998488]
Retrieval-Augmented Generation (RAG) は、外部知識をLLM(Large Language Model)出力に統合するために不可欠である。
本研究では,様々なRAG手法が検索精度および回答類似性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-01T10:43:52Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Seven Failure Points When Engineering a Retrieval Augmented Generation
System [1.8776685617612472]
RAGシステムは,大規模言語モデルからの幻覚応答の問題を解決することを目的としている。
RAGシステムは情報検索システム固有の制限に悩まされている。
本稿では3つのケーススタディからRAGシステムの故障点について報告する。
論文 参考訳(メタデータ) (2024-01-11T12:04:11Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - RAGAS: Automated Evaluation of Retrieval Augmented Generation [25.402461447140823]
RAGAはRetrieval Augmented Generationパイプラインを評価するためのフレームワークである。
RAGシステムは、検索とLLMベースの生成モジュールで構成される。
論文 参考訳(メタデータ) (2023-09-26T19:23:54Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。