論文の概要: REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing
- arxiv url: http://arxiv.org/abs/2506.16444v1
- Date: Thu, 19 Jun 2025 16:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.161038
- Title: REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing
- Title(参考訳): REIS:In-Storage処理を用いた高性能エネルギー効率検索システム
- Authors: Kangqi Chen, Andreas Kosmas Kakolyris, Rakesh Nadig, Manos Frouzakis, Nika Mansouri Ghiasi, Yu Liang, Haiyu Mao, Jisung Park, Mohammad Sadrosadati, Onur Mutlu,
- Abstract要約: 大きな言語モデル(LLM)は固有の課題に直面します。
Retrieval-Augmented Generation (RAG)は、LLMの静的トレーニングに基づく知識を外部知識リポジトリで補完する。
本稿では,これらの制約を3つのキーメカニズムで処理するRAG用に設計された最初のISPシステムであるREISを提案する。
- 参考スコア(独自算出の注目度): 8.574396262432522
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) face an inherent challenge: their knowledge is confined to the data that they have been trained on. To overcome this issue, Retrieval-Augmented Generation (RAG) complements the static training-derived knowledge of LLMs with an external knowledge repository. RAG consists of three stages: indexing, retrieval, and generation. The retrieval stage of RAG becomes a significant bottleneck in inference pipelines. In this stage, a user query is mapped to an embedding vector and an Approximate Nearest Neighbor Search (ANNS) algorithm searches for similar vectors in the database to identify relevant items. Due to the large database sizes, ANNS incurs significant data movement overheads between the host and the storage system. To alleviate these overheads, prior works propose In-Storage Processing (ISP) techniques that accelerate ANNS by performing computations inside storage. However, existing works that leverage ISP for ANNS (i) employ algorithms that are not tailored to ISP systems, (ii) do not accelerate data retrieval operations for data selected by ANNS, and (iii) introduce significant hardware modifications, limiting performance and hindering their adoption. We propose REIS, the first ISP system tailored for RAG that addresses these limitations with three key mechanisms. First, REIS employs a database layout that links database embedding vectors to their associated documents, enabling efficient retrieval. Second, it enables efficient ANNS by introducing an ISP-tailored data placement technique that distributes embeddings across the planes of the storage system and employs a lightweight Flash Translation Layer. Third, REIS leverages an ANNS engine that uses the existing computational resources inside the storage system. Compared to a server-grade system, REIS improves the performance (energy efficiency) of retrieval by an average of 13x (55x).
- Abstract(参考訳): 大きな言語モデル(LLM)は固有の課題に直面します。
この問題を克服するため、Retrieval-Augmented Generation (RAG)は、LLMの静的トレーニングに基づく知識を外部知識リポジトリで補完する。
RAGは、インデックス付け、検索、生成の3つのステージから構成される。
RAGの検索段階は推論パイプラインにおいて重要なボトルネックとなる。
この段階では、ユーザクエリを埋め込みベクトルにマッピングし、関連する項目を特定するためにデータベース内の類似したベクトルを探索する近似近傍探索(ANNS)アルゴリズムを用いる。
データベースのサイズが大きいため、ANNSはホストとストレージシステムの間の大きなデータ移動オーバーヘッドを発生させる。
これらのオーバーヘッドを軽減するために、先行研究では、ANNSを高速化するIn-Storage Processing (ISP)技術が提案されている。
しかし、ANNSのISPを活用した既存の作品
(i)ISPシステムに適合しないアルゴリズムを採用する。
(ii)ANNSが選択したデータのデータ検索操作を高速化せず、
3) ハードウェアの大幅な変更、性能の制限、採用を妨げること。
本稿では,これらの制限を3つのキーメカニズムで処理するRAG用に設計された最初のISPシステムであるREISを提案する。
まず、REISはデータベースの埋め込みベクトルを関連文書にリンクするデータベースレイアウトを採用し、効率的な検索を可能にする。
第二に、ISPがカスタマイズしたデータ配置技術を導入し、ストレージシステムの平面に埋め込みを分散させ、軽量なFlash翻訳層を採用することにより、効率的なANNSを実現する。
第3に、REISは、ストレージシステム内の既存の計算資源を使用するANNSエンジンを利用する。
サーバグレードシステムと比較して、REISは平均13倍(55倍)の性能(エネルギー効率)を向上させる。
関連論文リスト
- s3: You Don't Need That Much Data to Train a Search Agent via RL [41.21029905607559]
Retrieval-augmented Generation (RAG)システムでは、大規模言語モデル(LLM)が推論中に外部知識にアクセスできるようになる。
本稿では,検索者をジェネレータから切り離し,Gain Beyond RAG報酬を用いて検索者を訓練する,軽量でモデルに依存しないフレームワークであるs3を提案する。
論文 参考訳(メタデータ) (2025-05-20T09:53:56Z) - TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval [10.268774281394261]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を外部データソースに拡張し、事実の正しさとドメインカバレッジを高める。
現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。
我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T11:32:22Z) - ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval [72.2676180980573]
大規模言語モデル(LLM)は、高密度検索のスケールアップに活用できる優れた性能を示した。
オンラインクエリ待ち時間を維持しながら、検索にLLMのスケーリング可能性を利用する2段階のScalingNoteを提案する。
両段階のスケーリング手法はエンド・ツー・エンドのモデルより優れており,産業シナリオにおけるLLMを用いた高密度検索のスケーリング法則を検証している。
論文 参考訳(メタデータ) (2024-11-24T09:27:43Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。
本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。
我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - MIX-RS: A Multi-indexing System based on HDFS for Remote Sensing Data
Storage [21.033380514644616]
衛星技術の展開により、大量のリモートセンシング(RS)データが生成される。
RSデータの特徴(例:巨大なボリューム、大きな単一ファイルサイズ、フォールトトレランスの要求)は、Hadoop Distributed File System(HDFS)をRSデータストレージの理想的な選択肢にしている。
RSデータを使用するには、地理空間インデックス化が最も重要なテクニックである。
我々は,HDFS上のマルチインデックス機構を統一するMulti-IndeXing-RS (MIX-RS) というフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-05T05:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。