Fugu-MT 論文翻訳(概要): TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

論文の概要: TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

arxiv url: http://arxiv.org/abs/2502.20969v1
Date: Fri, 28 Feb 2025 11:32:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.847891
Title: TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval
Title（参考訳）: TeleRAG:Lookahead Retrievalを用いた効率的な検索拡張ジェネレーション推論
Authors: Chien-Yu Lin, Keisuke Kamahori, Yiyu Liu, Xiaoxiang Shi, Madhav Kashyap, Yile Gu, Rulin Shao, Zihao Ye, Kan Zhu, Stephanie Wang, Arvind Krishnamurthy, Rohan Kadekodi, Luis Ceze, Baris Kasikci,
Abstract要約: Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を外部データソースに拡張し、事実の正しさとドメインカバレッジを高める。現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
参考スコア（独自算出の注目度）: 10.268774281394261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented generation (RAG) extends large language models (LLMs) with external data sources to enhance factual correctness and domain coverage. Modern RAG pipelines rely on large datastores, leading to system challenges in latency-sensitive deployments, especially when limited GPU memory is available. To address these challenges, we propose TeleRAG, an efficient inference system that reduces RAG latency with minimal GPU memory requirements. The core innovation of TeleRAG is lookahead retrieval, a prefetching mechanism that anticipates required data and transfers it from CPU to GPU in parallel with LLM generation. By leveraging the modularity of RAG pipelines, the inverted file index (IVF) search algorithm and similarities between queries, TeleRAG optimally overlaps data movement and computation. Experimental results show that TeleRAG reduces end-to-end RAG inference latency by up to 1.72x on average compared to state-of-the-art systems, enabling faster, more memory-efficient deployments of advanced RAG applications.
Abstract（参考訳）: Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を外部データソースに拡張し、事実の正しさとドメインカバレッジを高める。現代のRAGパイプラインは大規模なデータストアに依存しており、特にGPUメモリが限られている場合、レイテンシに敏感なデプロイメントにおいて、システムの課題を引き起こしている。これらの課題に対処するために,GPUメモリの必要量を最小限に抑えてRAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。 TeleRAGの中核となる革新はルックアヘッド検索である。これは必要なデータを予測し、LLM生成と並行してCPUからGPUに転送するプリフェッチ機構である。 RAGパイプラインのモジュラリティ、逆ファイルインデックス(IVF)探索アルゴリズム、クエリ間の類似性を活用することで、TeleRAGはデータの移動と計算を最適にオーバーラップする。実験結果から、TeleRAGは最先端システムと比較して、エンドツーエンドのRAG推論遅延を平均1.72倍に削減し、より高速で、よりメモリ効率の高いRAGアプリケーションのデプロイを可能にした。

関連論文リスト

Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance [34.695803671702606]
小言語モデル(SLM)はリソース制約のあるエッジデバイスへの効率的なデプロイをサポートするが、その限られた能力は推論性能を損なう。 Retrieval-augmented Generation(RAG)は、デバイス上でのモデル再トレーニングを必要とせずに、外部データベースを統合することによってモデルパフォーマンスを向上させるための有望なソリューションである。文書のプライバシーを漏洩させることなく、一般知識と個人知識の両方を通じてデバイス上のSLMを強化する分散RAGフレームワークであるDRAGONを提案する。
論文参考訳（メタデータ） (2025-04-15T13:53:08Z)
An Adaptive Vector Index Partitioning Scheme for Low-Latency RAG Pipeline [0.6445605125467574]
Retrieval Augmented Generation (RAG) システムは、大規模言語モデル(LLM)とベクトルデータベースを統合することで、応答品質を向上させる。ベクターサーチとLLMサービスのための既存の最適化は、主に独立して開発されている。本稿では,RAGシステム用に設計されたベクトルインデックス分割機構であるVectorLiteRAGを紹介する。
論文参考訳（メタデータ） (2025-04-11T19:18:41Z)
RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。 RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文参考訳（メタデータ） (2025-03-25T03:21:48Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
EdgeRAG: Online-Indexed RAG for Edge Devices [1.740992908651449]
本稿では,クラスタ内に埋め込みをプルーニングし,検索時にオンデマンドに埋め込みを生成することでメモリ制約に対処するEdgeRAGを提案する。 BEIRスイートの結果は、EdgeRAGがベースラインIVFインデックスよりも大幅に遅延を低減していることを示している。
論文参考訳（メタデータ） (2024-12-30T15:46:53Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Accelerating Retrieval-Augmented Generation [15.179354005559338]
Retrieval-Augmented Generation (RAG)は、Webのような外部知識ソースから取得した情報によって、大きな言語モデルを拡張する。 IKSは、ホストCPUとニアメモリアクセラレータ間の新しいキャッシュコヒーレントインターフェースを備えたスケールアウトニアメモリアクセラレーションアーキテクチャを実装したタイプ2 CXLデバイスである。
論文参考訳（メタデータ） (2024-12-14T06:47:56Z)
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する効果を証明している。現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文参考訳（メタデータ） (2024-10-17T12:53:29Z)
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。 MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文参考訳（メタデータ） (2024-08-21T07:20:48Z)
PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design [16.76965926088238]
PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
論文参考訳（メタデータ） (2024-03-08T21:09:20Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文参考訳（メタデータ） (2022-01-13T15:20:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。