論文の概要: A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2604.14403v1
- Date: Wed, 15 Apr 2026 20:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.602231
- Title: A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation
- Title(参考訳): オンデバイス検索拡張生成のための統一モデルと文書表現
- Authors: Julian Killingback, Ofer Meshi, Henry Li, Hamed Zamani, Maryam Karimzadehgan,
- Abstract要約: 我々は、RAGコンテキストを圧縮し、同じ表現を検索に利用する統一モデルを提案する。
平均1/10のコンテキストで、我々のモデルはストレージ要求を増大させることなく従来のRAGリーダのパフォーマンスと一致します。
- 参考スコア(独自算出の注目度): 31.59984397397994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Retrieval-Augmented Generation (RAG) approaches generally assume that retrieval and generation occur on powerful servers removed from the end user. While this reduces local hardware constraints, it introduces significant drawbacks: privacy concerns regarding data access, recurring maintenance and storage costs, increased latency, and the necessity of an internet connection. On-device RAG addresses these challenges by executing the entire pipeline locally, making it ideal for querying sensitive personal information such as financial documents, contact details, and medical history. However, on-device deployment necessitates a delicate balance between limited memory and disk space. Specifically, the context size provided to the generative model must be restricted to manage KV cache and attention memory usage, while the size of stored embeddings must be minimized to preserve disk space. In this work, we propose a unified model that compresses the RAG context and utilizes the same representations for retrieval. This approach minimizes disk utilization compared to using separate representations, while significantly reducing the context size required for generation. With an average of 1/10 of the context, our model matches the performance of a traditional RAG reader without increasing storage requirements compared to a multi-vector retrieval model. This approach represents the first model to unify retrieval and context compression using a shared model and representation. We believe this work will inspire further consolidation of distinct models to optimize on-device performance.
- Abstract(参考訳): 従来のRAG(Retrieval-Augmented Generation)アプローチは一般的に、エンドユーザから削除された強力なサーバに対して、検索と生成が発生すると仮定する。
これにより、ローカルハードウェアの制約が軽減されるが、データアクセスに関するプライバシー上の懸念、メンテナンスとストレージコストの繰り返し、レイテンシの増加、インターネット接続の必要性など、大きな欠点が生じる。
オンデバイスRAGは、パイプライン全体をローカルに実行することでこれらの課題に対処する。
しかし、オンデバイスデプロイメントは、限られたメモリとディスクスペースの微妙なバランスを必要とする。
具体的には、生成モデルに提供されるコンテキストサイズは、KVキャッシュと注意メモリ使用量を管理するために制限されなければならないが、格納された埋め込みのサイズはディスク空間を保存するために最小化されなければならない。
本研究では,RAGコンテキストを圧縮し,同じ表現を検索に用いる統一モデルを提案する。
このアプローチは、別個の表現を使用する場合に比べてディスク利用を最小化すると同時に、生成に必要なコンテキストサイズを大幅に削減する。
平均1/10の文脈で,本モデルは,マルチベクトル検索モデルと比較してストレージ要求を増大させることなく,従来のRAGリーダの性能と一致させる。
このアプローチは、共有モデルと表現を用いた検索とコンテキスト圧縮を統一する最初のモデルである。
この作業によって、デバイス上でのパフォーマンスを最適化するために、異なるモデルのさらなる統合がもたらされると思います。
関連論文リスト
- SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - Runtime Adaptive Pruning for LLM Inference [7.5252252615137225]
我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。
RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。
RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
論文 参考訳(メタデータ) (2025-05-22T06:12:42Z) - Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance [34.695803671702606]
小言語モデル(SLM)はリソース制約のあるエッジデバイスへの効率的なデプロイをサポートするが、その限られた能力は推論性能を損なう。
Retrieval-augmented Generation(RAG)は、デバイス上でのモデル再トレーニングを必要とせずに、外部データベースを統合することによってモデルパフォーマンスを向上させるための有望なソリューションである。
文書のプライバシーを漏洩させることなく、一般知識と個人知識の両方を通じてデバイス上のSLMを強化する分散RAGフレームワークであるDRAGONを提案する。
論文 参考訳(メタデータ) (2025-04-15T13:53:08Z) - xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7069350303884]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。
xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。
実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:15:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Learning to Ignore: Long Document Coreference with Bounded Memory Neural
Networks [65.3963282551994]
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案する。
a)OntoNotesとLitBankの高メモリ・計算要求モデルと競合する傾向にあり,(b)ルールベースの戦略よりも容易に効率の良いメモリ管理戦略を学習できることを示す。
論文 参考訳(メタデータ) (2020-10-06T15:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。