論文の概要: Agreement-Based Cascading for Efficient Inference
- arxiv url: http://arxiv.org/abs/2407.02348v2
- Date: Fri, 06 Dec 2024 20:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:24.794005
- Title: Agreement-Based Cascading for Efficient Inference
- Title(参考訳): 効率的な推論のための合意に基づくカスケード
- Authors: Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith,
- Abstract要約: Agreement-Based Cascading (ABC) は単純で効果的な適応推論手法である。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
ABCは既存のモデルの代替品として確実に機能し、効率と精度の両面で、最高のシングルモデルを上回ることを示しています。
- 参考スコア(独自算出の注目度): 32.914852531806
- License:
- Abstract: Adaptive inference schemes reduce the cost of machine learning inference by assigning smaller models to easier examples, attempting to avoid invocation of larger models when possible. In this work we explore a simple, effective adaptive inference technique we term Agreement-Based Cascading (ABC). ABC builds a cascade of models of increasing size/complexity, and uses agreement between ensembles of models at each level of the cascade as a basis for data-dependent routing. Although ensemble execution introduces additional expense, we show that these costs can be easily offset in practice due to large expected differences in model sizes, parallel inference execution capabilities, and accuracy benefits of ensembling. We examine ABC theoretically and empirically in terms of these parameters, showing that the approach can reliably act as a drop-in replacement for existing models and surpass the best single model it aims to replace in terms of both efficiency and accuracy. Additionally, we explore the performance of ABC relative to existing cascading methods in three common scenarios: (1) edge-to-cloud inference, where ABC reduces communication costs by up to 14x; (2) cloud-based model serving, where it achieves a 3x reduction in rental costs; and (3) inference via model API services, where ABC achieves a 2-25x reduction in average price per token/request relative to state-of-the-art LLM cascades.
- Abstract(参考訳): 適応推論スキームは、より小さなモデルをより簡単な例に割り当てることで、機械学習推論のコストを削減する。
本研究では,合意に基づくカスケーディング(ABC)と呼ばれる,シンプルで効果的な適応推論手法について検討する。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
アンサンブルの実行には追加費用がかかるが、モデルサイズ、並列推論の実行能力、アンサンブルの精度の利点などにより、これらのコストは実際に容易に相殺できることが示される。
これらのパラメータの観点からABCを理論的かつ実証的に検討し、既存のモデルのドロップイン代替として確実に機能し、効率と精度の両面で置き換えることを目的とした最高の単一モデルを上回ることができることを示した。
さらに, 既存のカスケード手法と比較して, 1) ABCが通信コストを最大14倍に削減するエッジ・ツー・クラウド推論, (2) レンタルコストを3倍に削減するクラウドベースのモデルサービス, (3) ABCが最先端のLCMカスケードと比較してトークン当たり平均価格を2~25倍に削減するモデルAPIサービスによる推論の3つの一般的なシナリオで, ABCの性能について検討する。
関連論文リスト
- Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。
DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文 参考訳(メタデータ) (2024-09-11T21:23:23Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Optimal Model Placement and Online Model Splitting for Device-Edge
Co-Inference [22.785214118527872]
デバイスのエッジコ推論は、リソース制約のある無線デバイスがディープニューラルネットワーク(DNN)ベースのアプリケーションを実行する新たな可能性を開く。
デバイスエッジ共振器のエネルギー・時間コストを最小限に抑えるため,モデル配置とオンラインモデル分割決定の協調最適化について検討した。
論文 参考訳(メタデータ) (2021-05-28T06:55:04Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。