論文の概要: Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance
- arxiv url: http://arxiv.org/abs/2504.11197v1
- Date: Tue, 15 Apr 2025 13:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:02.739843
- Title: Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance
- Title(参考訳): 言語モデル性能向上のための分散型検索拡張生成の効率化
- Authors: Shangyu Liu, Zhenzhe Zheng, Xiaoyao Huang, Fan Wu, Jie Wu,
- Abstract要約: 小言語モデル(SLM)はリソース制約のあるエッジデバイスへの効率的なデプロイをサポートするが、その限られた能力は推論性能を損なう。
Retrieval-augmented Generation(RAG)は、デバイス上でのモデル再トレーニングを必要とせずに、外部データベースを統合することによってモデルパフォーマンスを向上させるための有望なソリューションである。
文書のプライバシーを漏洩させることなく、一般知識と個人知識の両方を通じてデバイス上のSLMを強化する分散RAGフレームワークであるDRAGONを提案する。
- 参考スコア(独自算出の注目度): 12.27506415852439
- License:
- Abstract: Small language models (SLMs) support efficient deployments on resource-constrained edge devices, but their limited capacity compromises inference performance. Retrieval-augmented generation (RAG) is a promising solution to enhance model performance by integrating external databases, without requiring intensive on-device model retraining. However, large-scale public databases and user-specific private contextual documents are typically located on the cloud and the device separately, while existing RAG implementations are primarily centralized. To bridge this gap, we propose DRAGON, a distributed RAG framework to enhance on-device SLMs through both general and personal knowledge without the risk of leaking document privacy. Specifically, DRAGON decomposes multi-document RAG into multiple parallel token generation processes performed independently and locally on the cloud and the device, and employs a newly designed Speculative Aggregation, a dual-side speculative algorithm to avoid frequent output synchronization between the cloud and device. A new scheduling algorithm is further introduced to identify the optimal aggregation side based on real-time network conditions. Evaluations on real-world hardware testbed demonstrate a significant performance improvement of DRAGON-up to 1.9x greater gains over standalone SLM compared to the centralized RAG, substantial reduction in per-token latency, and negligible Time to First Token (TTFT) overhead.
- Abstract(参考訳): 小言語モデル(SLM)はリソース制約のあるエッジデバイスへの効率的なデプロイをサポートするが、その限られた能力は推論性能を損なう。
Retrieval-augmented Generation(RAG)は、デバイス上でのモデル再トレーニングを必要とせずに、外部データベースを統合することによってモデルパフォーマンスを向上させるための有望なソリューションである。
しかしながら、大規模なパブリックデータベースとユーザ固有のプライベートコンテキストドキュメントは、通常、クラウドとデバイスを別々に配置するが、既存のRAG実装は主に集中型である。
このギャップを埋めるために、文書のプライバシーを漏らすことなく、一般知識と個人知識の両方を通じてデバイス上のSLMを強化する分散RAGフレームワークであるDRAGONを提案する。
具体的には、DRAGONはマルチドキュメントRAGを、クラウドとデバイス上で独立かつローカルに実行される複数の並列トークン生成プロセスに分解し、クラウドとデバイス間の頻繁な出力同期を回避するために、新たに設計された2側投機アルゴリズムであるSpeculative Aggregationを使用する。
リアルタイムネットワーク条件に基づいて最適なアグリゲーション側を特定するために,新たなスケジューリングアルゴリズムが導入された。
実世界のハードウェアテストベッドの評価では、DRAGON-upは、集中型RAGに比べて1.9倍の性能向上、トーケン毎のレイテンシの大幅な削減、TTFT(Time to First Token)オーバーヘッドを無視できることを示した。
関連論文リスト
- Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Efficient Federated Intrusion Detection in 5G ecosystem using optimized BERT-based model [0.7100520098029439]
5Gは高度なサービスを提供し、IoT(Internet of Things)内のインテリジェントトランスポート、コネクテッドヘルスケア、スマートシティなどのアプリケーションをサポートする。
これらの進歩は、ますます高度なサイバー攻撃を伴う、重大なセキュリティ上の課題をもたらす。
本稿では,連合学習と大規模言語モデル(LLM)を用いた頑健な侵入検知システム(IDS)を提案する。
論文 参考訳(メタデータ) (2024-09-28T15:56:28Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - DRAGON: Decentralized Fault Tolerance in Edge Federations [13.864161788250856]
我々は、新しいメモリ効率のディープラーニングベースモデル、すなわち生成最適化ネットワーク(GON)を提案する。
GONは入力とサンプルを区別するために単一のネットワークを使用し、メモリフットプリントを大幅に削減する。
本稿では,エッジフェデレーションの性能を迅速に予測し,最適化するためにシミュレーションを実行するDRAGONと呼ばれる分散型フォールトトレランス手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T10:40:28Z) - Learning towards Synchronous Network Memorizability and Generalizability
for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。
既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。
本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文 参考訳(メタデータ) (2022-06-14T13:04:36Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。