論文の概要: HedraRAG: Coordinating LLM Generation and Database Retrieval in Heterogeneous RAG Serving
- arxiv url: http://arxiv.org/abs/2507.09138v1
- Date: Sat, 12 Jul 2025 04:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.553857
- Title: HedraRAG: Coordinating LLM Generation and Database Retrieval in Heterogeneous RAG Serving
- Title(参考訳): HedraRAG: 異種RAG作業におけるLLM生成とデータベース検索のコーディネート
- Authors: Zhengding Hu, Vibha Murthy, Zaifeng Pan, Wanlu Li, Xiaoyi Fang, Yufei Ding, Yuke Wang,
- Abstract要約: HedraRAGはグラフベースの抽象化に基づいて構築されたランタイムシステムで、ステージレベルの並列性、要求内類似性、要求間歪性といった最適化の機会を公開する。
結果として発生する実行計画は、リソース使用率を改善し、レイテンシを低減するために、ハイブリッドCPU-GPUパイプラインにマップされる。
- 参考スコア(独自算出の注目度): 10.130938079844121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses emerging system-level challenges in heterogeneous retrieval-augmented generation (RAG) serving, where complex multi-stage workflows and diverse request patterns complicate efficient execution. We present HedraRAG, a runtime system built on a graph-based abstraction that exposes optimization opportunities across stage-level parallelism, intra-request similarity, and inter-request skewness. These opportunities are realized through dynamic graph transformations, such as node splitting, reordering, edge addition, and dependency rewiring, applied to wavefronts of subgraphs spanning concurrent requests. The resulting execution plans are mapped onto hybrid CPU-GPU pipelines to improve resource utilization and reduce latency. Evaluations across a wide range of RAG workflows demonstrate speedups exceeding 1.5x and reaching up to 5x over existing frameworks, showcasing the effectiveness of coordinated generation and retrieval in serving environments.
- Abstract(参考訳): 本稿では、複雑な多段階ワークフローと多様な要求パターンが効率的な実行を複雑化する異種検索拡張生成(RAG)サービスにおけるシステムレベルの課題に対処する。
本稿では,段階レベルの並列性,要求内類似性,要求間歪性といった最適化の機会を明らかにする,グラフベースの抽象化に基づいて構築されたランタイムシステムであるHedraRAGを提案する。
これらの機会は、ノード分割、リオーダー、エッジの追加、依存性のリスイッチといった動的なグラフ変換を通じて実現され、同時に要求するサブグラフの波面に適用されます。
結果として発生する実行計画は、リソース使用率を改善し、レイテンシを低減するために、ハイブリッドCPU-GPUパイプラインにマップされる。
幅広いRAGワークフローの評価は、既存のフレームワークよりも1.5倍、最大5倍のスピードアップを示し、サービス環境におけるコーディネート生成と検索の有効性を示している。
関連論文リスト
- HAWK: A Hierarchical Workflow Framework for Multi-Agent Collaboration [3.2588674134593942]
マルチエージェントシステムは、クロスプラットフォームの相互運用性、動的タスクスケジューリング、効率的なリソース共有において永続的な課題に直面している。
階層型エージェント (Hawk) は, ユーザ, オペレータ, エージェント, リソースの5つのレイヤから構成され, 16の標準化インターフェースでサポートされているモジュール型フレームワークである。
Hawkはタスク解析、ワークフローオーケストレーション、インテリジェントスケジューリング、リソース呼び出し、データ同期をカバーしたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2025-07-05T15:03:53Z) - EraRAG: Efficient and Incremental Retrieval Augmented Generation for Growing Corpora [20.890240791042302]
グラフベースのRetrieval-Augmented Generation (Graph-RAG)は、外部コーパス上の検索を構造化することにより、大きな言語モデル(LLM)を強化する。
高速でスケーラブルな動的更新をサポートする新しい多層グラフ-RAGフレームワークであるEraRAGを紹介する。
提案手法は,超平面に基づく局所性感性ハッシュ(LSH)を利用して,元のコーパスを階層グラフ構造に分割,整理する。
論文 参考訳(メタデータ) (2025-06-26T03:01:33Z) - Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization [64.33914369424494]
RoleRAGは、ロール固有のトークン最適化を通じて効率的なマルチタスク処理を実現する統一的なRAGフレームワークである。
RoleRAGは6つのモジュールから構成され、それぞれがRAGプロセス内で特定のサブタスクを処理する。
クエリの分解を表すクエリグラフを導入し、分解状態に応じて動的に解決する。
論文 参考訳(メタデータ) (2025-05-21T12:25:12Z) - RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。
RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。
評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文 参考訳(メタデータ) (2025-03-25T03:21:48Z) - TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval [10.268774281394261]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を外部データソースに拡張し、事実の正しさとドメインカバレッジを高める。
現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。
我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T11:32:22Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System
Co-design [16.76965926088238]
PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。
評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
論文 参考訳(メタデータ) (2024-03-08T21:09:20Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。