Fugu-MT 論文翻訳(概要): AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval

論文の概要: AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval

arxiv url: http://arxiv.org/abs/2404.06004v2
Date: Wed, 26 Feb 2025 07:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:45.934672
Title: AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval
Title（参考訳）: AiSAQ:DRAMフリー情報検索のための製品量子化機能付きオールインストレージANNS
Authors: Kento Tatsuno, Daisuke Miyashita, Taiga Ikeda, Kiyoshi Ishiyama, Kazunari Sumiyoshi, Jun Deguchi,
Abstract要約: 本稿では、圧縮ベクトルをSSDインデックスにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。本手法は,10 MB のメモリ使用率を数十億のデータセットによるクエリ検索で実現し,遅延の致命的な劣化を伴わない。
参考スコア（独自算出の注目度）: 1.099532646524593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graph-based approximate nearest neighbor search (ANNS) algorithms work effectively against large-scale vector retrieval. Among such methods, DiskANN achieves good recall-speed tradeoffs using both DRAM and storage. DiskANN adopts product quantization (PQ) to reduce memory usage, which is still proportional to the scale of datasets. In this paper, we propose All-in-Storage ANNS with Product Quantization (AiSAQ), which offloads compressed vectors to the SSD index. Our method achieves $\sim$10 MB memory usage in query search with billion-scale datasets without critical latency degradation. AiSAQ also reduces the index load time for query search preparation, which enables fast switch between muitiple billion-scale indices.This method can be applied to retrievers of retrieval-augmented generation (RAG) and be scaled out with multiple-server systems for emerging datasets. Our DiskANN-based implementation is available on GitHub.
Abstract（参考訳）: グラフベース近似近接探索(ANNS)アルゴリズムは大規模ベクトル探索に対して効果的に動作する。このような手法の中で、DkANNはDRAMとストレージの両方を使って良好なリコール速度のトレードオフを実現する。 DiskANNは、データセットのスケールに比例するメモリ使用量を減らすために、製品量子化(PQ)を採用している。本稿では、圧縮ベクトルをSSDインデックスにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。本手法は,数十億のデータセットを用いたクエリ検索において,重要な遅延劣化を伴わずに,$\sim$10 MBのメモリ使用量を実現する。 AiSAQはまた、クエリ検索のためのインデックスロード時間を短縮し、数十億規模のインデックスを高速に切り替えることを可能にする。この方法は、検索強化世代(RAG)の検索者に適用でき、新興データセットのためのマルチサーバシステムでスケールアウトできる。 DiskANNベースの実装はGitHubで入手可能です。

関連論文リスト

LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文参考訳（メタデータ） (2025-06-09T22:43:30Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。この調査は、AIのメモリに関する研究、ベンチマークデータセット、ツールに関する構造化された動的視点を提供する。
論文参考訳（メタデータ） (2025-05-01T17:31:33Z)
On Storage Neural Network Augmented Approximate Nearest Neighbor Search [1.3654846342364308]
メモリ上のデータではなく、ストレージデバイスに格納されているデータから、与えられたクエリベクターに最もよく似たベクターを検索する必要がある。本稿では,ニューラルネットワークを用いて正しいクラスタを予測する手法を提案する。 K平均クラスタリングと線形サーチを併用した,最先端SPANNと網羅的手法と比較して, SIFT1Mでは, ストレージから取得したデータの80%と58%の削減で, 90%のリコールを実現している。
論文参考訳（メタデータ） (2025-01-23T06:56:18Z)
Accelerating Retrieval-Augmented Generation [15.179354005559338]
Retrieval-Augmented Generation (RAG)は、Webのような外部知識ソースから取得した情報によって、大きな言語モデルを拡張する。 IKSは、ホストCPUとニアメモリアクセラレータ間の新しいキャッシュコヒーレントインターフェースを備えたスケールアウトニアメモリアクセラレーションアーキテクチャを実装したタイプ2 CXLデバイスである。
論文参考訳（メタデータ） (2024-12-14T06:47:56Z)
Characterizing the Dilemma of Performance and Index Size in Billion-Scale Vector Search and Breaking It with Second-Tier Memory [14.432536669959218]
大規模データセットのベクター検索は、Web検索やRAGのような現代的なオンラインサービスにとって極めて重要である。既存のSSDベースのグラフとクラスタインデックスのパフォーマンスとインデックスサイズのトレードオフを特徴付ける。ベクターインデックスは、様々な第2階層メモリデバイスにおいて、桁違いに小さなインデックス増幅で最適な性能が得られることを示す。
論文参考訳（メタデータ） (2024-05-06T08:38:14Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)
ESPN: Memory-Efficient Multi-Vector Information Retrieval [0.36832029288386137]
マルチベクトルモデルは、検索インデックスのメモリとストレージの要求を桁違いに増幅する。ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をオフロードして、メモリ要求を5～16倍削減します。我々は、ヒット率90%を超えるソフトウェアプレフィッシャーを設計し、SSDベースの検索を6.4倍に改善し、大規模なクエリバッチサイズであっても、ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
論文参考訳（メタデータ） (2023-12-09T00:19:42Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Injecting Domain Adaptation with Learning-to-hash for Effective and Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文参考訳（メタデータ） (2022-05-23T17:53:44Z)
Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文参考訳（メタデータ） (2022-02-14T10:26:23Z)
SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。 KRRのストリーミング版であるStreaMRAKを提案する。本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文参考訳（メタデータ） (2021-08-23T21:03:09Z)
PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文参考訳（メタデータ） (2021-05-08T16:39:24Z)
IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文参考訳（メタデータ） (2021-03-17T23:13:25Z)
Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。 i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文参考訳（メタデータ） (2021-02-15T18:19:07Z)
MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文参考訳（メタデータ） (2020-09-29T11:56:01Z)
Hands-off Model Integration in Spatial Index Structures [8.710716183434918]
本稿では,軽量機械学習モデルを用いて空間インデックスのクエリを高速化する機会について検討する。我々は、R木において、おそらく最も広く使われている空間指標である、それと類似した手法を使うことの可能性を探ることによって、そうする。分析で示すように、クエリの実行時間を最大60%削減でき、同時にインデックスのメモリフットプリントを90%以上削減できる。
論文参考訳（メタデータ） (2020-06-29T22:05:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。