論文の概要: Beyond the Buzz: A Pragmatic Take on Inference Disaggregation
- arxiv url: http://arxiv.org/abs/2506.05508v1
- Date: Thu, 05 Jun 2025 18:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.747992
- Title: Beyond the Buzz: A Pragmatic Take on Inference Disaggregation
- Title(参考訳): Beyond the Buzz: 推論のデアグリゲーションに関する現実的な見解
- Authors: Tiyasa Mitra, Ritika Borkar, Nidhi Bhatia, Ramon Matas, Shivam Raj, Dheevatsa Mudigere, Ritchie Zhao, Maximilian Golub, Arpan Dutta, Sailaja Madduri, Dharmesh Jani, Brian Pharris, Bita Darvish Rouhani,
- Abstract要約: 本稿では,分散推論の大規模化に関する最初の体系的研究について述べる。
その結果,デアグリゲーションは交通パターンや大規模モデルにおいて最も有効であることが判明した。
- 参考スコア(独自算出の注目度): 2.9938991029619064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As inference scales to multi-node deployments, disaggregation - splitting inference into distinct phases - offers a promising path to improving the throughput-interactivity Pareto frontier. Despite growing enthusiasm and a surge of open-source efforts, practical deployment of disaggregated serving remains limited due to the complexity of the optimization search space and system-level coordination. In this paper, we present the first systematic study of disaggregated inference at scale, evaluating hundreds of thousands of design points across diverse workloads and hardware configurations. We find that disaggregation is most effective for prefill-heavy traffic patterns and larger models. Our results highlight the critical role of dynamic rate matching and elastic scaling in achieving Pareto-optimal performance. Our findings offer actionable insights for efficient disaggregated deployments to navigate the trade-off between system throughput and interactivity.
- Abstract(参考訳): 推論がマルチノードデプロイメントにスケールするにつれて、デアグリゲーション — 推論を別々のフェーズに分割する — は、スループット-インタラクティブなParetoフロンティアを改善するための有望な道を提供する。
熱意の高まりとオープンソースの努力の急増にもかかわらず、最適化検索空間の複雑さとシステムレベルの調整が原因で、非集約型サービスの実現は依然として限られている。
本稿では,分散推論の大規模化に関する最初の体系的研究を行い,多様なワークロードやハードウェア構成にまたがる数十万の設計ポイントについて評価する。
その結果,デアグリゲーションは交通パターンや大規模モデルにおいて最も有効であることが判明した。
この結果から,パレート最適性能を実現する上での動的レートマッチングと弾性スケーリングの重要性が示唆された。
我々の発見は、システムのスループットと対話性の間のトレードオフをナビゲートするために、効率的な非集合的デプロイメントのための実用的な洞察を提供する。
関連論文リスト
- Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - DisCo-DSO: Coupling Discrete and Continuous Optimization for Efficient Generative Design in Hybrid Spaces [12.729697787995892]
DisCo-DSOは、生成モデルを用いて離散的かつ連続的な設計変数に関する共同分布を学習する新しいアプローチである。
特に,決定木を用いた強化学習の最先端手法に対するDisCo-DSOの優位性について述べる。
論文 参考訳(メタデータ) (2024-12-15T04:51:54Z) - Efficient Pareto Manifold Learning with Low-Rank Structure [31.082432589391953]
マルチタスク学習は本質的に多目的最適化問題である。
そこで本研究では,複数の低ランク行列を主ネットワークに統合する手法を提案する。
パラメータの数を著しく削減し、共有された特徴の抽出を容易にする。
論文 参考訳(メタデータ) (2024-07-30T11:09:27Z) - Bayesian Off-Policy Evaluation and Learning for Large Action Spaces [13.001601860404426]
対話型システムでは、アクションはよく相関し、よりサンプリング効率の良いオフ・ポリシーの評価と学習の機会を提供する。
我々は、これらの相関関係を構造化および情報的事前を通じて捉えるために、統一されたベイズ的枠組みを導入する。
我々は,OPEとOPLの一般ベイズ的アプローチであるsDMを提案する。
論文 参考訳(メタデータ) (2024-02-22T16:09:45Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Fusion and Orthogonal Projection for Improved Face-Voice Association [15.938463726577128]
顔と声の関連性について検討する。
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
論文 参考訳(メタデータ) (2021-12-20T12:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。