論文の概要: Revisiting Cascaded Ensembles for Efficient Inference
- arxiv url: http://arxiv.org/abs/2407.02348v1
- Date: Tue, 2 Jul 2024 15:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:56:27.081144
- Title: Revisiting Cascaded Ensembles for Efficient Inference
- Title(参考訳): 効率的な推論のためのカスケードアンサンブルの再検討
- Authors: Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith,
- Abstract要約: 機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
- 参考スコア(独自算出の注目度): 32.914852531806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to make machine learning inference more efficient is to use example-specific adaptive schemes, which route or select models for each example at inference time. In this work we study a simple scheme for adaptive inference. We build a cascade of ensembles (CoE), beginning with resource-efficient models and growing to larger, more expressive models, where ensemble agreement serves as a data-dependent routing criterion. This scheme is easy to incorporate into existing inference pipelines, requires no additional training, and can be used to place models across multiple resource tiers--for instance, serving efficient models at the edge and invoking larger models in the cloud only when necessary. In cases where parallel inference is feasible, we show that CoE can improve accuracy relative to the single best model while reducing the average cost of inference by up to 7x, and provides Pareto-dominate solutions in accuracy and efficiency relative to existing adaptive inference baselines. These savings translate to an over 3x-reduction in total monetary cost when performing inference using a heterogeneous cluster of GPUs. Finally, for edge inference scenarios where portions of the cascade reside at the edge vs. in the cloud, CoE can provide a 14x reduction in communication cost and inference latency without sacrificing accuracy.
- Abstract(参考訳): 機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
我々は、資源効率の良いモデルから始まり、より大きく表現力のあるモデルへと成長するアンサンブルのカスケード(CoE)を構築し、アンサンブル合意はデータ依存のルーティング基準として機能する。
このスキームは既存の推論パイプラインに簡単に組み込むことができ、追加のトレーニングを必要とせず、複数のリソース層にモデルを配置することができる。
並列推論が実現可能な場合には,最大7倍の推論コストを削減しつつ,単一ベストモデルと比較して精度を向上し,既存の適応推論ベースラインと比較して精度と効率の面でパレート支配型ソリューションを提供する。
これらの貯蓄は、GPUの異種クラスタを使用して推論を行う場合、総金銭コストで3倍以上削減される。
最後に、カスケードの一部をエッジに配置するエッジ推論シナリオでは、CoEは精度を犠牲にすることなく通信コストと推論遅延を14倍削減することができる。
関連論文リスト
- Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。
DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文 参考訳(メタデータ) (2024-09-11T21:23:23Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Optimal Model Placement and Online Model Splitting for Device-Edge
Co-Inference [22.785214118527872]
デバイスのエッジコ推論は、リソース制約のある無線デバイスがディープニューラルネットワーク(DNN)ベースのアプリケーションを実行する新たな可能性を開く。
デバイスエッジ共振器のエネルギー・時間コストを最小限に抑えるため,モデル配置とオンラインモデル分割決定の協調最適化について検討した。
論文 参考訳(メタデータ) (2021-05-28T06:55:04Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。