論文の概要: Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps
- arxiv url: http://arxiv.org/abs/2505.12731v1
- Date: Mon, 19 May 2025 05:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.425576
- Title: Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps
- Title(参考訳): 命令駆動型検索オーバーラップの表現還元による適応型検索拡張生成の高速化
- Authors: Jie Ou, Jinyu Guo, Shuaihong Jiang, Zhaokun Wang, Libo Qin, Shunyu Yao, Wenhong Tian,
- Abstract要約: 本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
- 参考スコア(独自算出の注目度): 16.84310001807895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) has emerged as a pivotal method for expanding the knowledge of large language models. To handle complex queries more effectively, researchers developed Adaptive-RAG (A-RAG) to enhance the generated quality through multiple interactions with external knowledge bases. Despite its effectiveness, A-RAG exacerbates the pre-existing efficiency challenges inherent in RAG, which are attributable to its reliance on multiple iterations of generation. Existing A-RAG approaches process all retrieved contents from scratch. However, they ignore the situation where there is a significant overlap in the content of the retrieval results across rounds. The overlapping content is redundantly represented, which leads to a large proportion of repeated computations, thus affecting the overall efficiency. To address this issue, this paper introduces a model-agnostic approach that can be generally applied to A-RAG methods, which is dedicated to reducing the redundant representation process caused by the overlapping of retrieval results. Specifically, we use cache access and parallel generation to speed up the prefilling and decoding stages respectively. Additionally, we also propose an instruction-driven module to further guide the model to more effectively attend to each part of the content in a more suitable way for LLMs. Experiments show that our approach achieves 2.79 and 2.33 times significant acceleration on average for prefilling and decoding respectively while maintaining equal generation quality.
- Abstract(参考訳): 検索拡張世代(RAG)は,大規模言語モデルの知識を拡大するための重要な手法である。
複雑なクエリをより効率的に処理するために、研究者は、外部知識ベースとの複数のインタラクションを通じて生成された品質を向上させるためにAdaptive-RAG(A-RAG)を開発した。
有効性にもかかわらず、A-RAGはRAGに固有の既存の効率の課題を悪化させ、それは生成の繰り返しに依存することに起因する。
既存のA-RAGアプローチは、すべての検索されたコンテンツをスクラッチから処理する。
しかし,各ラウンドで検索結果の内容が重なり合う状況は無視されている。
重なり合う内容は冗長に表現され、繰り返し計算される割合が大きくなり、全体的な効率に影響を及ぼす。
本稿では,A-RAG法に適用可能なモデルに依存しない手法を提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
また,LLMに対してより適切な方法で,より効果的にコンテンツの各部分に参画できるよう,モデルをさらに指導する命令駆動モジュールを提案する。
提案手法は, 平均2.79倍, 2.33倍の高速化を実現し, 生成品質を同等に保ちながら, プリフィルおよび復号化を行った。
関連論文リスト
- HeteRAG: A Heterogeneous Retrieval-augmented Generation Framework with Decoupled Knowledge Representations [36.61614799098233]
検索拡張ジェネレーション(RAG)法はLLMの性能を向上させることができる。
既存のRAG法では、検索と生成の両方に知識チャンクの同一表現を用いるのが一般的である。
検索と生成のための知識チャンクの表現を分離する異種RAGフレームワーク(myname)を提案する。
論文 参考訳(メタデータ) (2025-04-12T13:12:54Z) - DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.87532210660456]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。
クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。
実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文 参考訳(メタデータ) (2025-02-03T08:22:45Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。