論文の概要: The Power of Noise: Redefining Retrieval for RAG Systems
- arxiv url: http://arxiv.org/abs/2401.14887v3
- Date: Mon, 12 Feb 2024 22:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:30:14.603665
- Title: The Power of Noise: Redefining Retrieval for RAG Systems
- Title(参考訳): 騒音のパワー:RAGシステムのための検索の再定義
- Authors: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone
Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio
Silvestri
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは従来のLarge Language Models (LLM) よりも大幅に進歩している。
本稿では,有効なRAGのプロンプト定式化のために,検索者が保持すべき特徴について分析する。
無関係な文書を含むと、予想外に30%以上の精度で性能を向上できることがわかった。
- 参考スコア(独自算出の注目度): 20.22211173429561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems represent a significant
advancement over traditional Large Language Models (LLMs). RAG systems enhance
their generation ability by incorporating external data retrieved through an
Information Retrieval (IR) phase, overcoming the limitations of standard LLMs,
which are restricted to their pre-trained knowledge and limited context window.
Most research in this area has predominantly concentrated on the generative
aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and
critically analyzing the influence of IR components on RAG systems. This paper
analyzes which characteristics a retriever should possess for an effective
RAG's prompt formulation, focusing on the type of documents that should be
retrieved. We evaluate various elements, such as the relevance of the documents
to the prompt, their position, and the number included in the context. Our
findings reveal, among other insights, that including irrelevant documents can
unexpectedly enhance performance by more than 30% in accuracy, contradicting
our initial assumption of diminished quality. These results underscore the need
for developing specialized strategies to integrate retrieval with language
generation models, thereby laying the groundwork for future research in this
field.
- Abstract(参考訳): 検索型世代 (rag) システムは従来の大規模言語モデル (llm) を大きく上回っている。
RAGシステムは、情報検索(IR)フェーズを通じて取得した外部データを組み込んで、事前訓練された知識と限られたコンテキストウインドウに制限された標準LLMの制限を克服することで、生成能力を向上する。
この分野のほとんどの研究は、RAGシステム内のLLMの生成的側面に主に集中している。
本研究は、IR成分がRAGシステムに与える影響を徹底的かつ批判的に分析することによって、このギャップを埋めるものである。
本稿では,検索すべき文書の種類に焦点をあてて,レトリバーが有効なragのプロンプト定式化のために持つべき特性を分析する。
我々は,プロンプトに対する文書の関連性,その位置,文脈に含まれる数など,様々な要素を評価した。
以上の結果から,無関係な文書を含むことにより,品質低下の最初の仮定と矛盾する精度が30%以上向上する可能性が示唆された。
これらの結果は,検索を言語生成モデルと統合する特殊な戦略を開発する必要性を浮き彫りにして,今後の研究の基盤となる。
関連論文リスト
- REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Seven Failure Points When Engineering a Retrieval Augmented Generation
System [1.8776685617612472]
RAGシステムは,大規模言語モデルからの幻覚応答の問題を解決することを目的としている。
RAGシステムは情報検索システム固有の制限に悩まされている。
本稿では3つのケーススタディからRAGシステムの故障点について報告する。
論文 参考訳(メタデータ) (2024-01-11T12:04:11Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [19.139461618363605]
大きな言語モデル(LLM)は重要な能力を示すが、幻覚、時代遅れの知識、不透明で追跡不能な推論プロセスといった課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems [50.82251875013377]
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
予測駆動推論(PPI)のための人間アノテーション付きデータポイントの小さなセットの利用
ARESは、数百の人間のアノテーションを使用して、RAGシステムを正確に評価する。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - RAGAS: Automated Evaluation of Retrieval Augmented Generation [25.402461447140823]
RAGAはRetrieval Augmented Generationパイプラインを評価するためのフレームワークである。
RAGシステムは、検索とLLMベースの生成モジュールで構成される。
論文 参考訳(メタデータ) (2023-09-26T19:23:54Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。