論文の概要: Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection
- arxiv url: http://arxiv.org/abs/2405.16178v1
- Date: Sat, 25 May 2024 11:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:40:50.327817
- Title: Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection
- Title(参考訳): スパースコンテキスト選択による検索拡張生成の高速化
- Authors: Yun Zhu, Jia-Chen Gu, Caitlin Sikora, Ho Ko, Yinxiao Liu, Chu-Cheng Lin, Lei Shu, Liangchen Luo, Lei Meng, Bang Liu, Jindong Chen,
- Abstract要約: 大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
- 参考スコア(独自算出の注目度): 28.15184715270483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) augmented with retrieval exhibit robust performance and extensive versatility by incorporating external contexts. However, the input length grows linearly in the number of retrieved documents, causing a dramatic increase in latency. In this paper, we propose a novel paradigm named Sparse RAG, which seeks to cut computation costs through sparsity. Specifically, Sparse RAG encodes retrieved documents in parallel, which eliminates latency introduced by long-range attention of retrieved documents. Then, LLMs selectively decode the output by only attending to highly relevant caches auto-regressively, which are chosen via prompting LLMs with special control tokens. It is notable that Sparse RAG combines the assessment of each individual document and the generation of the response into a single process. The designed sparse mechanism in a RAG system can facilitate the reduction of the number of documents loaded during decoding for accelerating the inference of the RAG system. Additionally, filtering out undesirable contexts enhances the model's focus on relevant context, inherently improving its generation quality. Evaluation results of two datasets show that Sparse RAG can strike an optimal balance between generation quality and computational efficiency, demonstrating its generalizability across both short- and long-form generation tasks.
- Abstract(参考訳): 大きな言語モデル (LLM) は、検索によって強化され、外部コンテキストを組み込むことで、堅牢な性能と広範な汎用性を示す。
しかし、検索された文書数で入力長が線形に増加し、レイテンシが劇的に増加する。
本稿では,スパースRAG(Sparse RAG)という新しいパラダイムを提案する。
具体的には、Sparse RAGは、検索した文書を並列に符号化し、検索した文書の長距離の注意による遅延を取り除く。
次に、LLMは、特別な制御トークンでLLMをプロンプトすることで選択される、高度に関連性の高いキャッシュにのみ参加することで、出力を選択的にデコードする。
Sparse RAGは個々の文書の評価と応答の生成をひとつのプロセスにまとめている点が注目に値する。
設計されたRAGシステムにおけるスパース機構は、RAGシステムの推論を高速化するためにデコード時にロードされる文書の数を削減できる。
さらに、望ましくないコンテキストをフィルタリングすることで、モデルが関連するコンテキストに焦点を合わせ、その生成品質が本質的に向上する。
2つのデータセットの評価結果から,Sparse RAGは生成品質と計算効率の最適バランスを達成でき,その一般化可能性を示す。
関連論文リスト
- Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大規模言語モデル(LLM)のための新しいRAGプロンプト手法を提案する。
重ね合わせプロンプトにより、LLMは入力文書を並列にプロンプトパスで処理でき、無関係と判断された後にパスを破棄する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Corrective Retrieval Augmented Generation [39.371798735872865]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。