Fugu-MT 論文翻訳(概要): FaTRQ: Tiered Residual Quantization for LLM Vector Search in Far-Memory-Aware ANNS Systems

論文の概要: FaTRQ: Tiered Residual Quantization for LLM Vector Search in Far-Memory-Aware ANNS Systems

arxiv url: http://arxiv.org/abs/2601.09985v1
Date: Thu, 15 Jan 2026 01:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:18.946273
Title: FaTRQ: Tiered Residual Quantization for LLM Vector Search in Far-Memory-Aware ANNS Systems
Title（参考訳）: FaTRQ:Far-Memory-Aware ANNSシステムにおけるLLMベクトル探索のための残差量子化
Authors: Tianqi Zhang, Flavio Ponzina, Tajana Rosing,
Abstract要約: FaTRQは、ストレージから完全なベクトルを取り出す必要をなくす、メモリを意識した改良システムである。カスタムアクセラレータはCXL Type-2デバイスにデプロイされ、ローカルで低遅延リファインメントを実行する。 FaTRQは、ストレージ効率を2.4$times$で改善し、スループットをSOTA GPU ANNSシステムよりも最大9$$で改善する。
参考スコア（独自算出の注目度）: 16.221654013698963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Approximate Nearest-Neighbor Search (ANNS) is a key technique in retrieval-augmented generation (RAG), enabling rapid identification of the most relevant high-dimensional embeddings from massive vector databases. Modern ANNS engines accelerate this process using prebuilt indexes and store compressed vector-quantized representations in fast memory. However, they still rely on a costly second-pass refinement stage that reads full-precision vectors from slower storage like SSDs. For modern text and multimodal embeddings, these reads now dominate the latency of the entire query. We propose FaTRQ, a far-memory-aware refinement system using tiered memory that eliminates the need to fetch full vectors from storage. It introduces a progressive distance estimator that refines coarse scores using compact residuals streamed from far memory. Refinement stops early once a candidate is provably outside the top-k. To support this, we propose tiered residual quantization, which encodes residuals as ternary values stored efficiently in far memory. A custom accelerator is deployed in a CXL Type-2 device to perform low-latency refinement locally. Together, FaTRQ improves the storage efficiency by 2.4$\times$ and improves the throughput by up to 9$ \times$ than SOTA GPU ANNS system.
Abstract（参考訳）: Approximate Nearest-Neighbor Search (ANNS) は、大規模ベクトルデータベースから最も関連性の高い高次元埋め込みを迅速に識別できる検索強化生成(RAG)の鍵となる技術である。現代のANNSエンジンは、プレビルドインデックスを使用してこのプロセスを加速し、圧縮されたベクトル量子化表現を高速メモリに格納する。しかし、SSDのような遅いストレージから完全精度ベクターを読み取るための、コストのかかる第2のパス改善ステージに依存している。現代のテキストやマルチモーダルな埋め込みでは、これらの読み込みがクエリ全体のレイテンシを支配している。本稿では,ストレージから完全ベクトルを取り出す必要をなくすために,階層型メモリを用いた遠メモリ対応精細化システムFaTRQを提案する。遠方のメモリから流れるコンパクトな残差を用いて粗いスコアを洗練するプログレッシブ距離推定器を導入する。再選は、候補が確実にトップkの外側にいると早い段階で停止する。これを支援するために, 残差を3次値としてエンコードし, 極小メモリに効率よく格納するタインド残差量子化法を提案する。カスタムアクセラレータはCXL Type-2デバイスにデプロイされ、ローカルで低遅延リファインメントを実行する。 FaTRQは、ストレージ効率を2.4$\times$で改善し、スループットをSOTA GPU ANNSシステムよりも最大9$ \times$で改善する。

関連論文リスト

Hippocampus: An Efficient and Scalable Memory Module for Agentic AI [4.508092142808317]
Hippocampusは、セマンティック検索にコンパクトなバイナリシグネチャを使用するエージェント型メモリ管理システムである。その中核はDWM(Dynamic Wavelet Matrix)であり、超高速検索をサポートするために両方のストリームを圧縮し、共同インデックスする。評価の結果,Hippocampusはエンドツーエンドの検索遅延を最大31$times$に削減できることがわかった。
論文参考訳（メタデータ） (2026-02-14T04:25:20Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
On Storage Neural Network Augmented Approximate Nearest Neighbor Search [1.3654846342364308]
メモリ上のデータではなく、ストレージデバイスに格納されているデータから、与えられたクエリベクターに最もよく似たベクターを検索する必要がある。本稿では,ニューラルネットワークを用いて正しいクラスタを予測する手法を提案する。 K平均クラスタリングと線形サーチを併用した,最先端SPANNと網羅的手法と比較して, SIFT1Mでは, ストレージから取得したデータの80%と58%の削減で, 90%のリコールを実現している。
論文参考訳（メタデータ） (2025-01-23T06:56:18Z)
Accelerating Retrieval-Augmented Generation [15.179354005559338]
Retrieval-Augmented Generation (RAG)は、Webのような外部知識ソースから取得した情報によって、大きな言語モデルを拡張する。 IKSは、ホストCPUとニアメモリアクセラレータ間の新しいキャッシュコヒーレントインターフェースを備えたスケールアウトニアメモリアクセラレーションアーキテクチャを実装したタイプ2 CXLデバイスである。
論文参考訳（メタデータ） (2024-12-14T06:47:56Z)
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。 RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文参考訳（メタデータ） (2024-09-16T17:59:52Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval [1.099532646524593]
本稿では、圧縮ベクトルをSSDインデックスにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。本手法は,10 MB のメモリ使用率を数十億のデータセットによるクエリ検索で実現し,遅延の致命的な劣化を伴わない。
論文参考訳（メタデータ） (2024-04-09T04:20:27Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。