Fugu-MT 論文翻訳(概要): REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing

論文の概要: REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing

arxiv url: http://arxiv.org/abs/2506.16444v1
Date: Thu, 19 Jun 2025 16:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.161038
Title: REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing
Title（参考訳）: REIS:In-Storage処理を用いた高性能エネルギー効率検索システム
Authors: Kangqi Chen, Andreas Kosmas Kakolyris, Rakesh Nadig, Manos Frouzakis, Nika Mansouri Ghiasi, Yu Liang, Haiyu Mao, Jisung Park, Mohammad Sadrosadati, Onur Mutlu,
Abstract要約: 大きな言語モデル(LLM)は固有の課題に直面します。 Retrieval-Augmented Generation (RAG)は、LLMの静的トレーニングに基づく知識を外部知識リポジトリで補完する。本稿では,これらの制約を3つのキーメカニズムで処理するRAG用に設計された最初のISPシステムであるREISを提案する。
参考スコア（独自算出の注目度）: 8.574396262432522
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Language Models (LLMs) face an inherent challenge: their knowledge is confined to the data that they have been trained on. To overcome this issue, Retrieval-Augmented Generation (RAG) complements the static training-derived knowledge of LLMs with an external knowledge repository. RAG consists of three stages: indexing, retrieval, and generation. The retrieval stage of RAG becomes a significant bottleneck in inference pipelines. In this stage, a user query is mapped to an embedding vector and an Approximate Nearest Neighbor Search (ANNS) algorithm searches for similar vectors in the database to identify relevant items. Due to the large database sizes, ANNS incurs significant data movement overheads between the host and the storage system. To alleviate these overheads, prior works propose In-Storage Processing (ISP) techniques that accelerate ANNS by performing computations inside storage. However, existing works that leverage ISP for ANNS (i) employ algorithms that are not tailored to ISP systems, (ii) do not accelerate data retrieval operations for data selected by ANNS, and (iii) introduce significant hardware modifications, limiting performance and hindering their adoption. We propose REIS, the first ISP system tailored for RAG that addresses these limitations with three key mechanisms. First, REIS employs a database layout that links database embedding vectors to their associated documents, enabling efficient retrieval. Second, it enables efficient ANNS by introducing an ISP-tailored data placement technique that distributes embeddings across the planes of the storage system and employs a lightweight Flash Translation Layer. Third, REIS leverages an ANNS engine that uses the existing computational resources inside the storage system. Compared to a server-grade system, REIS improves the performance (energy efficiency) of retrieval by an average of 13x (55x).
Abstract（参考訳）: 大きな言語モデル(LLM)は固有の課題に直面します。この問題を克服するため、Retrieval-Augmented Generation (RAG)は、LLMの静的トレーニングに基づく知識を外部知識リポジトリで補完する。 RAGは、インデックス付け、検索、生成の3つのステージから構成される。 RAGの検索段階は推論パイプラインにおいて重要なボトルネックとなる。この段階では、ユーザクエリを埋め込みベクトルにマッピングし、関連する項目を特定するためにデータベース内の類似したベクトルを探索する近似近傍探索(ANNS)アルゴリズムを用いる。データベースのサイズが大きいため、ANNSはホストとストレージシステムの間の大きなデータ移動オーバーヘッドを発生させる。これらのオーバーヘッドを軽減するために、先行研究では、ANNSを高速化するIn-Storage Processing (ISP)技術が提案されている。しかし、ANNSのISPを活用した既存の作品 (i)ISPシステムに適合しないアルゴリズムを採用する。 (ii)ANNSが選択したデータのデータ検索操作を高速化せず、 3) ハードウェアの大幅な変更、性能の制限、採用を妨げること。本稿では,これらの制限を3つのキーメカニズムで処理するRAG用に設計された最初のISPシステムであるREISを提案する。まず、REISはデータベースの埋め込みベクトルを関連文書にリンクするデータベースレイアウトを採用し、効率的な検索を可能にする。第二に、ISPがカスタマイズしたデータ配置技術を導入し、ストレージシステムの平面に埋め込みを分散させ、軽量なFlash翻訳層を採用することにより、効率的なANNSを実現する。第3に、REISは、ストレージシステム内の既存の計算資源を使用するANNSエンジンを利用する。サーバグレードシステムと比較して、REISは平均13倍(55倍)の性能(エネルギー効率)を向上させる。

関連論文リスト

Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文参考訳（メタデータ） (2025-05-20T14:14:38Z)
s3: You Don't Need That Much Data to Train a Search Agent via RL [41.21029905607559]
Retrieval-augmented Generation (RAG)システムでは、大規模言語モデル(LLM)が推論中に外部知識にアクセスできるようになる。本稿では,検索者をジェネレータから切り離し,Gain Beyond RAG報酬を用いて検索者を訓練する,軽量でモデルに依存しないフレームワークであるs3を提案する。
論文参考訳（メタデータ） (2025-05-20T09:53:56Z)
An Adaptive Vector Index Partitioning Scheme for Low-Latency RAG Pipeline [0.6445605125467574]
Retrieval Augmented Generation (RAG) システムは、大規模言語モデル(LLM)とベクトルデータベースを統合することで、応答品質を向上させる。ベクターサーチとLLMサービスのための既存の最適化は、主に独立して開発されている。本稿では,RAGシステム用に設計されたベクトルインデックス分割機構であるVectorLiteRAGを紹介する。
論文参考訳（メタデータ） (2025-04-11T19:18:41Z)
TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval [10.268774281394261]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を外部データソースに拡張し、事実の正しさとドメインカバレッジを高める。現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
論文参考訳（メタデータ） (2025-02-28T11:32:22Z)
Scalable Overload-Aware Graph-Based Index Construction for 10-Billion-Scale Vector Similarity Search [18.419278931226756]
SOGAICは超大規模ベクトルデータベースに適したグラフベースのANNSインデックス構築システムである。提案手法は実世界の産業用検索エンジンに導入され,毎日100億件以上のベクトルを処理している。
論文参考訳（メタデータ） (2025-02-28T04:03:23Z)
Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。 System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文参考訳（メタデータ） (2025-02-18T03:20:50Z)
ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval [72.2676180980573]
大規模言語モデル(LLM)は、高密度検索のスケールアップに活用できる優れた性能を示した。オンラインクエリ待ち時間を維持しながら、検索にLLMのスケーリング可能性を利用する2段階のScalingNoteを提案する。両段階のスケーリング手法はエンド・ツー・エンドのモデルより優れており,産業シナリオにおけるLLMを用いた高密度検索のスケーリング法則を検証している。
論文参考訳（メタデータ） (2024-11-24T09:27:43Z)
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文参考訳（メタデータ） (2024-10-17T12:53:29Z)
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。 MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文参考訳（メタデータ） (2024-02-01T07:22:52Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
MIX-RS: A Multi-indexing System based on HDFS for Remote Sensing Data Storage [21.033380514644616]
衛星技術の展開により、大量のリモートセンシング(RS)データが生成される。 RSデータの特徴(例:巨大なボリューム、大きな単一ファイルサイズ、フォールトトレランスの要求)は、Hadoop Distributed File System(HDFS)をRSデータストレージの理想的な選択肢にしている。 RSデータを使用するには、地理空間インデックス化が最も重要なテクニックである。我々は,HDFS上のマルチインデックス機構を統一するMulti-IndeXing-RS (MIX-RS) というフレームワークを提案する。
論文参考訳（メタデータ） (2022-08-05T05:11:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。