論文の概要: EdgeRAG: Online-Indexed RAG for Edge Devices
- arxiv url: http://arxiv.org/abs/2412.21023v1
- Date: Mon, 30 Dec 2024 15:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:05:00.968372
- Title: EdgeRAG: Online-Indexed RAG for Edge Devices
- Title(参考訳): EdgeRAG: エッジデバイス用のオンラインインデックスRAG
- Authors: Korakit Seemakhupt, Sihang Liu, Samira Khan,
- Abstract要約: 本稿では,クラスタ内に埋め込みをプルーニングし,検索時にオンデマンドに埋め込みを生成することでメモリ制約に対処するEdgeRAGを提案する。
BEIRスイートの結果は、EdgeRAGがベースラインIVFインデックスよりも大幅に遅延を低減していることを示している。
- 参考スコア(独自算出の注目度): 1.740992908651449
- License:
- Abstract: Deploying Retrieval Augmented Generation (RAG) on resource-constrained edge devices is challenging due to limited memory and processing power. In this work, we propose EdgeRAG which addresses the memory constraint by pruning embeddings within clusters and generating embeddings on-demand during retrieval. To avoid the latency of generating embeddings for large tail clusters, EdgeRAG pre-computes and stores embeddings for these clusters, while adaptively caching remaining embeddings to minimize redundant computations and further optimize latency. The result from BEIR suite shows that EdgeRAG offers significant latency reduction over the baseline IVF index, but with similar generation quality while allowing all of our evaluated datasets to fit into the memory.
- Abstract(参考訳): リソース制約のあるエッジデバイスにRAG(Retrieval Augmented Generation)をデプロイすることは、メモリと処理能力の制限により困難である。
本研究では,クラスタ内に埋め込みをプルーニングし,検索中にオンデマンドで埋め込みを生成することでメモリ制約に対処するEdgeRAGを提案する。
大きなテールクラスタの埋め込みを生成するレイテンシを回避するため、EdgeRAGは、これらのクラスタの埋め込みを事前計算し、保存すると同時に、残りの埋め込みを適応的にキャッシュすることで、冗長な計算を最小化し、さらにレイテンシを最適化する。
BEIRスイートの結果から、EdgeRAGはベースラインIVFインデックスよりも大幅に遅延を低減しますが、同じ生成品質で、評価済みのデータセットをメモリに収めることができます。
関連論文リスト
- Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures [26.183960625493807]
エッジデバイスにデプロイされる大規模言語モデル(LLM)は、微調整とパラメータの特定の部分の更新を通じて学習する。
Retrieval-Augmented Generation (RAG) は資源効率の高いLLM学習手法である。
本稿では,コンピューティング・イン・メモリ(CiM)アーキテクチャを用いてRAGを高速化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T22:31:50Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - Reducing Memory Requirements of Quantum Optimal Control [0.0]
GRAPEのような勾配に基づくアルゴリズムは、ストレージの指数的な増加、量子ビットの増加、メモリ要求の線形増加、時間ステップの増加に悩まされる。
我々は、ユニタリ行列の逆が共役変換であるという事実を利用して、GRAPEが必要とする勾配を計算できる非標準自動微分法を開発した。
提案手法は, GRAPEのメモリ要求を大幅に低減し, 妥当な再計算を犠牲にしている。
論文 参考訳(メタデータ) (2022-03-23T20:42:54Z) - Generative Optimization Networks for Memory Efficient Data Generation [11.452816167207937]
本稿では,生成最適化ネットワーク(GON)と呼ばれる新しいフレームワークを提案する。
GONは単一の識別器ネットワークを使用し、入力空間で最適化を行い、新しいデータサンプルを生成し、トレーニング時間とメモリ消費の効果的な妥協を実現する。
我々のフレームワークでは、検出F1スコアが最大で32%、メモリ消費が58%、トレーニングオーバーヘッドが最先端と比較してわずか5%高いことが示されています。
論文 参考訳(メタデータ) (2021-10-06T16:54:33Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。