論文の概要: Practical Performance Guarantees for Pipelined DNN Inference
- arxiv url: http://arxiv.org/abs/2311.03703v2
- Date: Fri, 3 May 2024 14:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:57:02.004797
- Title: Practical Performance Guarantees for Pipelined DNN Inference
- Title(参考訳): パイプラインDNN推論のための実用的性能保証
- Authors: Aaron Archer, Matthew Fahrbach, Kuikui Liu, Prakash Prabhu,
- Abstract要約: グラフを$k$のステージに分割することで、ディープニューラルネットワーク(DNN)推論のためのパイプライン並列性を最適化する。
改良された下界が最適性ギャップを9.855xで閉じたことを示す。
- 参考スコア(独自算出の注目度): 3.493620624883548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We optimize pipeline parallelism for deep neural network (DNN) inference by partitioning model graphs into $k$ stages and minimizing the running time of the bottleneck stage, including communication. We give practical and effective algorithms for this NP-hard problem, but our emphasis is on tackling the practitioner's dilemma of deciding when a solution is good enough. To this end, we design novel mixed-integer programming (MIP) relaxations for proving lower bounds. Applying these methods to a diverse testbed of 369 production models, for $k \in \{2, 4, 8, 16, 32, 64\}$, we empirically show that these lower bounds are strong enough to be useful in practice. Our lower bounds are substantially stronger than standard combinatorial bounds. For example, evaluated via geometric means across our production testbed with $k = 16$ pipeline stages, our MIP formulations raised the lower bound from 0.4598 to 0.9452, expressed as a fraction of the best partition found. In other words, our improved lower bounds closed the optimality gap by a factor of 9.855x.
- Abstract(参考訳): 我々は、モデルグラフを$k$のステージに分割し、通信を含むボトルネックステージの実行時間を最小化することで、ディープニューラルネットワーク(DNN)推論のためのパイプライン並列性を最適化する。
このNPハード問題に対して実用的で効果的なアルゴリズムを提示するが、我々は、ソリューションが十分であるかどうかを決める実践者のジレンマに取り組むことに注力する。
この目的のために、我々は、下界を証明するための新しい混合整数プログラミング(MIP)の緩和を設計する。
これらの手法を369生産モデルの多種多様なテストベッドに適用すると、$k \in \{2, 4, 8, 16, 32, 64\}$に対して、これらの下限が実際に役立つほど強いことを実証的に示す。
我々の下限は標準組合せ境界よりもかなり強い。
例えば、我々の生産試験場における幾何的手段を用いて、$k = 16$パイプラインステージで評価すると、MIPの定式化は、見つかった最良の分割の分数として表される0.4598から0.9452に下限を引き上げた。
言い換えれば、改良された下界は最適性ギャップを9.855xで閉じた。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - A Stochastic Bundle Method for Interpolating Networks [18.313879914379008]
本稿では,実験的な損失をゼロにすることができるディープニューラルネットワークのトレーニング手法を提案する。
各イテレーションにおいて,本手法は目的学習近似のバンドルとして知られる最大線形近似を構成する。
論文 参考訳(メタデータ) (2022-01-29T23:02:30Z) - High-Dimensional Experimental Design and Kernel Bandits [9.401375475860561]
最適な線形実験設計の手法を利用して、線形バンディットの最先端の結果を得ています。
G$-optimal designのような目的から返される設計は、実際に潜在的な測定ベクトルのプール上の確率分布である。
我々は、次元 $d$ に対する任意の依存から$n$ を解放する丸め手順を提案する。
論文 参考訳(メタデータ) (2021-05-12T17:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。