論文の概要: Theoretically Optimal Attention/FFN Ratios in Disaggregated LLM Serving
- arxiv url: http://arxiv.org/abs/2601.21351v1
- Date: Thu, 29 Jan 2026 07:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.644176
- Title: Theoretically Optimal Attention/FFN Ratios in Disaggregated LLM Serving
- Title(参考訳): 分散LDM作業における理論的に最適注意/FFN比
- Authors: Chendong Song, Meixuan Wang, Hang Zhou, Hong Liang, Yuan Lyu, Zixi Chen, Yuwei Fan, Zijie Zhou,
- Abstract要約: 我々は、AFDバンドルを$r$A-$1$Fトポロジーでサイズ化するための抽出可能な分析フレームワークを開発する。
インスタンス毎の平均スループットを最大化する最適A/F比の閉形式ルールを導出する。
トレース校正されたAFDシミュレータが理論を検証する。
- 参考スコア(独自算出の注目度): 12.150964112168582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-FFN disaggregation (AFD) is an emerging architecture for LLM decoding that separates state-heavy, KV-cache-dominated Attention computation from stateless, compute-intensive FFN computation, connected by per-step communication. While AFD enables independent scaling of memory and compute resources, its performance is highly sensitive to the Attention/FFN provisioning ratio: mis-sizing induces step-level blocking and costly device idle time. We develop a tractable analytical framework for sizing AFD bundles in an $r$A-$1$F topology, where the key difficulty is that Attention-side work is nonstationary-token context grows and requests are continuously replenished with random lengths-while FFN work is stable given the aggregated batch. Using a probabilistic workload model, we derive closed-form rules for the optimal A/F ratio that maximize average throughput per instance across the system. A trace-calibrated AFD simulator validates the theory: across workloads, the theoretical optimal A/F ratio matches the simulation-optimal within 10%, and consistently reduces idle time.
- Abstract(参考訳): Attention-FFN disaggregation (AFD) は、状態重の KV-cache-dominated Attention 計算を、ステップ間通信で接続されたステートレスな計算集約型 FFN 計算から分離する、LLMデコーディングのための新しいアーキテクチャである。
AFDはメモリと計算リソースの独立したスケーリングを可能にするが、そのパフォーマンスはAttention/FFNプロビジョニング比に非常に敏感である。
本稿では, AFD バンドルを$r$A-$1$F トポロジーでサイズ化するための抽出可能な解析フレームワークを開発した。
確率的ワークロードモデルを用いて、システム全体のインスタンス当たり平均スループットを最大化する最適なA/F比のクローズドフォームルールを導出する。
トレース校正されたAFDシミュレータは、ワークロード全体で、理論上の最適A/F比は10%以内のシミュレーション最適値と一致し、アイドル時間を一貫して減少させる。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Efficiency vs. Fidelity: A Comparative Analysis of Diffusion Probabilistic Models and Flow Matching on Low-Resource Hardware [0.0]
Denoising Diffusion Probabilistic Models (DDPMs) は、生成画像合成における新しい最先端技術を確立した。
本研究では,新たなフローマッチングパラダイムに対するDDPMの比較分析を行った。
論文 参考訳(メタデータ) (2025-11-24T18:19:42Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Learning the Optimal Stopping for Early Classification within Finite Horizons via Sequential Probability Ratio Test [11.199585259018459]
時系列の早期分類に最適な停止時間を提供するSPRT(Sequential Probability Ratio Test)による、時間に敏感な機械学習の利点。
入力長が有限である有限地平線シナリオでは、後ろ向きの誘導を必要とするため、最適停止規則を決定することが計算集約化される。
本稿では,SPRTベースのフレームワークであるFIRMBOUNDを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:54:46Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Importance of Smoothness Induced by Optimizers in FL4ASR: Towards
Understanding Federated Learning for End-to-End ASR [12.108696564200052]
フェデレートラーニング(FL)を用いたエンドツーエンド自動音声認識(ASR)モデルの訓練から始める。
FLを用いて訓練したモデルと,その集中型モデルとの単語誤り率の観点から,性能ギャップを最小化する上で重要な基本的考察について検討する。
論文 参考訳(メタデータ) (2023-09-22T17:23:01Z) - Blockchain-enabled Server-less Federated Learning [5.065631761462706]
我々は、(BC)技術によって強化された非同期サーバーレスフェデレートラーニングソリューションに焦点を当てる。
主に採用されているFLアプローチとは対照的に、クライアントがローカル更新を送信する際にモデルアグリゲーションを行う非同期手法を提唱する。
論文 参考訳(メタデータ) (2021-12-15T07:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。