論文の概要: Agreement-Based Cascading for Efficient Inference
- arxiv url: http://arxiv.org/abs/2407.02348v2
- Date: Fri, 06 Dec 2024 20:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:43.624243
- Title: Agreement-Based Cascading for Efficient Inference
- Title(参考訳): 効率的な推論のための合意に基づくカスケード
- Authors: Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith,
- Abstract要約: Agreement-Based Cascading (ABC) は単純で効果的な適応推論手法である。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
ABCは既存のモデルの代替品として確実に機能し、効率と精度の両面で、最高のシングルモデルを上回ることを示しています。
- 参考スコア(独自算出の注目度): 32.914852531806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive inference schemes reduce the cost of machine learning inference by assigning smaller models to easier examples, attempting to avoid invocation of larger models when possible. In this work we explore a simple, effective adaptive inference technique we term Agreement-Based Cascading (ABC). ABC builds a cascade of models of increasing size/complexity, and uses agreement between ensembles of models at each level of the cascade as a basis for data-dependent routing. Although ensemble execution introduces additional expense, we show that these costs can be easily offset in practice due to large expected differences in model sizes, parallel inference execution capabilities, and accuracy benefits of ensembling. We examine ABC theoretically and empirically in terms of these parameters, showing that the approach can reliably act as a drop-in replacement for existing models and surpass the best single model it aims to replace in terms of both efficiency and accuracy. Additionally, we explore the performance of ABC relative to existing cascading methods in three common scenarios: (1) edge-to-cloud inference, where ABC reduces communication costs by up to 14x; (2) cloud-based model serving, where it achieves a 3x reduction in rental costs; and (3) inference via model API services, where ABC achieves a 2-25x reduction in average price per token/request relative to state-of-the-art LLM cascades.
- Abstract(参考訳): 適応推論スキームは、より小さなモデルをより簡単な例に割り当てることで、機械学習推論のコストを削減する。
本研究では,合意に基づくカスケーディング(ABC)と呼ばれる,シンプルで効果的な適応推論手法について検討する。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
アンサンブルの実行には追加費用がかかるが、モデルサイズ、並列推論の実行能力、アンサンブルの精度の利点などにより、これらのコストは実際に容易に相殺できることが示される。
これらのパラメータの観点からABCを理論的かつ実証的に検討し、既存のモデルのドロップイン代替として確実に機能し、効率と精度の両面で置き換えることを目的とした最高の単一モデルを上回ることができることを示した。
さらに, 既存のカスケード手法と比較して, 1) ABCが通信コストを最大14倍に削減するエッジ・ツー・クラウド推論, (2) レンタルコストを3倍に削減するクラウドベースのモデルサービス, (3) ABCが最先端のLCMカスケードと比較してトークン当たり平均価格を2~25倍に削減するモデルAPIサービスによる推論の3つの一般的なシナリオで, ABCの性能について検討する。
関連論文リスト
- Bi-directional Model Cascading with Proxy Confidence [3.1890398692194326]
本稿では,カスケード内の小型モデルと大規模モデルの信頼性を同時に考慮した,双方向なdeferralアプローチを提案する。
隠れ状態の分析を用いて、小型モデルの起動後信頼性を向上させる。
次に、これを小さなプロキシモデルと組み合わせて、大規模なモデルの起動前信頼性を推定します。
論文 参考訳(メタデータ) (2025-04-27T23:48:14Z) - Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral [28.382040322550775]
本稿では,既存の品質推定(QE)メトリクスを推論規則として用いた機械翻訳の簡易かつ効果的な手法を提案する。
また,QEに基づくdeferralでは,カスケードシステムにより,より大規模なモデルの性能に適合し,短時間で呼び出すことが可能であることを示す。
論文 参考訳(メタデータ) (2025-02-18T10:05:40Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。
DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文 参考訳(メタデータ) (2024-09-11T21:23:23Z) - Faster Cascades via Speculative Decoding [66.16909847419198]
カスケードと投機的復号化は、言語モデルの推論効率を改善するためのアプローチである。
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
我々の手法は、カスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:08Z) - Transferable and Principled Efficiency for Open-Vocabulary Segmentation [82.66423763561697]
事前学習された基礎視覚言語計算モデルの最近の成功は、Open-Vocabulary (OVS)を可能にする。
このアプローチでは,1) 背骨のモデルサイズが大きいこと,2) 微調整時にコストがかかること,の2つの課題に対して,計算上のオーバーヘッドが発生する。
本稿では,大規模な視覚言語基盤モデルに基づいて,従来のOVSに匹敵する,あるいはさらに優れた性能を実現することを目的とする。
論文 参考訳(メタデータ) (2024-04-11T03:08:53Z) - Cabrita: closing the gap for foreign languages [0.0]
特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
論文 参考訳(メタデータ) (2023-08-23T02:49:35Z) - Systematic compactification of the two-channel Kondo model. II. Comparative study of scaling and universality [44.99833362998488]
アンダーソンの単純な貧乏者の手順を用いてスケーリングについて研究する。
スケーリングに伴うフローの仕方に関して,3つのモデル間で共通的な合意を公開しています。
論文 参考訳(メタデータ) (2023-08-07T13:46:45Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Optimal Model Placement and Online Model Splitting for Device-Edge
Co-Inference [22.785214118527872]
デバイスのエッジコ推論は、リソース制約のある無線デバイスがディープニューラルネットワーク(DNN)ベースのアプリケーションを実行する新たな可能性を開く。
デバイスエッジ共振器のエネルギー・時間コストを最小限に抑えるため,モデル配置とオンラインモデル分割決定の協調最適化について検討した。
論文 参考訳(メタデータ) (2021-05-28T06:55:04Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。