論文の概要: Revisiting Cascaded Ensembles for Efficient Inference
- arxiv url: http://arxiv.org/abs/2407.02348v1
- Date: Tue, 2 Jul 2024 15:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:56:27.081144
- Title: Revisiting Cascaded Ensembles for Efficient Inference
- Title(参考訳): 効率的な推論のためのカスケードアンサンブルの再検討
- Authors: Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith,
- Abstract要約: 機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
- 参考スコア(独自算出の注目度): 32.914852531806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to make machine learning inference more efficient is to use example-specific adaptive schemes, which route or select models for each example at inference time. In this work we study a simple scheme for adaptive inference. We build a cascade of ensembles (CoE), beginning with resource-efficient models and growing to larger, more expressive models, where ensemble agreement serves as a data-dependent routing criterion. This scheme is easy to incorporate into existing inference pipelines, requires no additional training, and can be used to place models across multiple resource tiers--for instance, serving efficient models at the edge and invoking larger models in the cloud only when necessary. In cases where parallel inference is feasible, we show that CoE can improve accuracy relative to the single best model while reducing the average cost of inference by up to 7x, and provides Pareto-dominate solutions in accuracy and efficiency relative to existing adaptive inference baselines. These savings translate to an over 3x-reduction in total monetary cost when performing inference using a heterogeneous cluster of GPUs. Finally, for edge inference scenarios where portions of the cascade reside at the edge vs. in the cloud, CoE can provide a 14x reduction in communication cost and inference latency without sacrificing accuracy.
- Abstract(参考訳): 機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
我々は、資源効率の良いモデルから始まり、より大きく表現力のあるモデルへと成長するアンサンブルのカスケード(CoE)を構築し、アンサンブル合意はデータ依存のルーティング基準として機能する。
このスキームは既存の推論パイプラインに簡単に組み込むことができ、追加のトレーニングを必要とせず、複数のリソース層にモデルを配置することができる。
並列推論が実現可能な場合には,最大7倍の推論コストを削減しつつ,単一ベストモデルと比較して精度を向上し,既存の適応推論ベースラインと比較して精度と効率の面でパレート支配型ソリューションを提供する。
これらの貯蓄は、GPUの異種クラスタを使用して推論を行う場合、総金銭コストで3倍以上削減される。
最後に、カスケードの一部をエッジに配置するエッジ推論シナリオでは、CoEは精度を犠牲にすることなく通信コストと推論遅延を14倍削減することができる。
関連論文リスト
- Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral [28.382040322550775]
本稿では,既存の品質推定(QE)メトリクスを推論規則として用いた機械翻訳の簡易かつ効果的な手法を提案する。
また,QEに基づくdeferralでは,カスケードシステムにより,より大規模なモデルの性能に適合し,短時間で呼び出すことが可能であることを示す。
論文 参考訳(メタデータ) (2025-02-18T10:05:40Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Faster Cascades via Speculative Decoding [66.16909847419198]
カスケードと投機的復号化は、言語モデルの推論効率を改善するためのアプローチである。
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
我々の手法は、カスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:08Z) - Transferable and Principled Efficiency for Open-Vocabulary Segmentation [82.66423763561697]
事前学習された基礎視覚言語計算モデルの最近の成功は、Open-Vocabulary (OVS)を可能にする。
このアプローチでは,1) 背骨のモデルサイズが大きいこと,2) 微調整時にコストがかかること,の2つの課題に対して,計算上のオーバーヘッドが発生する。
本稿では,大規模な視覚言語基盤モデルに基づいて,従来のOVSに匹敵する,あるいはさらに優れた性能を実現することを目的とする。
論文 参考訳(メタデータ) (2024-04-11T03:08:53Z) - Cabrita: closing the gap for foreign languages [0.0]
特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
論文 参考訳(メタデータ) (2023-08-23T02:49:35Z) - Systematic compactification of the two-channel Kondo model. II. Comparative study of scaling and universality [44.99833362998488]
アンダーソンの単純な貧乏者の手順を用いてスケーリングについて研究する。
スケーリングに伴うフローの仕方に関して,3つのモデル間で共通的な合意を公開しています。
論文 参考訳(メタデータ) (2023-08-07T13:46:45Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。