論文の概要: Patchwork: A Unified Framework for RAG Serving
- arxiv url: http://arxiv.org/abs/2505.07833v1
- Date: Thu, 01 May 2025 18:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-18 22:55:23.181196
- Title: Patchwork: A Unified Framework for RAG Serving
- Title(参考訳): Patchwork: RAGサービングのための統一フレームワーク
- Authors: Bodun Hu, Luis Pabon, Saurabh Agarwal, Aditya Akella,
- Abstract要約: Retrieval Augmented Generation (RAG) は、外部知識ソースとの統合による大規模言語モデルの信頼性向上のための新しいパラダイムとして登場した。
Patchworkは、これらの効率のボトルネックに対処するために設計された、包括的なエンドツーエンドのRAGサービスフレームワークです。
- 参考スコア(独自算出の注目度): 6.430565435912026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval Augmented Generation (RAG) has emerged as a new paradigm for enhancing Large Language Model reliability through integration with external knowledge sources. However, efficient deployment of these systems presents significant technical challenges due to their inherently heterogeneous computational pipelines comprising LLMs, databases, and specialized processing components. We introduce Patchwork, a comprehensive end-to-end RAG serving framework designed to address these efficiency bottlenecks. Patchwork's architecture offers three key innovations: First, it provides a flexible specification interface enabling users to implement custom RAG pipelines. Secondly, it deploys these pipelines as distributed inference systems while optimizing for the unique scalability characteristics of individual RAG components. Third, Patchwork incorporates an online scheduling mechanism that continuously monitors request load and execution progress, dynamically minimizing SLO violations through strategic request prioritization and resource auto-scaling. Our experimental evaluation across four distinct RAG implementations demonstrates that Patchwork delivers substantial performance improvements over commercial alternatives, achieving throughput gains exceeding 48% while simultaneously reducing SLO violations by ~24%.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) は、外部知識ソースとの統合による大規模言語モデルの信頼性向上のための新しいパラダイムとして登場した。
しかし、これらのシステムの効率的なデプロイは、LLM、データベース、特殊処理コンポーネントからなる本質的に異質な計算パイプラインのため、重要な技術的課題を呈している。
Patchworkは、これらの効率のボトルネックに対処するために設計された、包括的なエンドツーエンドのRAGサービスフレームワークです。
Patchworkのアーキテクチャは3つの重要なイノベーションを提供している。 まず、ユーザがカスタムなRAGパイプラインを実装するためのフレキシブルな仕様インターフェースを提供する。
次に、分散推論システムとしてパイプラインをデプロイし、個々のRAGコンポーネントのユニークなスケーラビリティ特性を最適化する。
第3に、Patchworkには、要求の負荷と実行の進捗を継続的に監視するオンラインスケジューリングメカニズムが組み込まれており、戦略的要求優先順位付けとリソース自動スケーリングによってSLO違反を動的に最小化する。
Patchworkは商用の代替品よりも大幅な性能向上を実現し,スループットが48%以上向上し,同時にSLO違反を約24%削減した。
関連論文リスト
- Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。
LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving [9.962031642362813]
Retrieval-augmented Generation (RAG) は、信頼性LLMサービスに対する一般的なアプローチとして現れつつある。
RAGは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化である。
RAGOは、効率的なRAGサービスのためのシステム最適化フレームワークである。
論文 参考訳(メタデータ) (2025-03-18T18:58:13Z) - ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.388562622309838]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。