論文の概要: Agreement-Based Cascading for Efficient Inference
- arxiv url: http://arxiv.org/abs/2407.02348v2
- Date: Fri, 06 Dec 2024 20:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:24.794005
- Title: Agreement-Based Cascading for Efficient Inference
- Title(参考訳): 効率的な推論のための合意に基づくカスケード
- Authors: Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith,
- Abstract要約: Agreement-Based Cascading (ABC) は単純で効果的な適応推論手法である。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
ABCは既存のモデルの代替品として確実に機能し、効率と精度の両面で、最高のシングルモデルを上回ることを示しています。
- 参考スコア(独自算出の注目度): 32.914852531806
- License:
- Abstract: Adaptive inference schemes reduce the cost of machine learning inference by assigning smaller models to easier examples, attempting to avoid invocation of larger models when possible. In this work we explore a simple, effective adaptive inference technique we term Agreement-Based Cascading (ABC). ABC builds a cascade of models of increasing size/complexity, and uses agreement between ensembles of models at each level of the cascade as a basis for data-dependent routing. Although ensemble execution introduces additional expense, we show that these costs can be easily offset in practice due to large expected differences in model sizes, parallel inference execution capabilities, and accuracy benefits of ensembling. We examine ABC theoretically and empirically in terms of these parameters, showing that the approach can reliably act as a drop-in replacement for existing models and surpass the best single model it aims to replace in terms of both efficiency and accuracy. Additionally, we explore the performance of ABC relative to existing cascading methods in three common scenarios: (1) edge-to-cloud inference, where ABC reduces communication costs by up to 14x; (2) cloud-based model serving, where it achieves a 3x reduction in rental costs; and (3) inference via model API services, where ABC achieves a 2-25x reduction in average price per token/request relative to state-of-the-art LLM cascades.
- Abstract(参考訳): 適応推論スキームは、より小さなモデルをより簡単な例に割り当てることで、機械学習推論のコストを削減する。
本研究では,合意に基づくカスケーディング(ABC)と呼ばれる,シンプルで効果的な適応推論手法について検討する。
ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。
アンサンブルの実行には追加費用がかかるが、モデルサイズ、並列推論の実行能力、アンサンブルの精度の利点などにより、これらのコストは実際に容易に相殺できることが示される。
これらのパラメータの観点からABCを理論的かつ実証的に検討し、既存のモデルのドロップイン代替として確実に機能し、効率と精度の両面で置き換えることを目的とした最高の単一モデルを上回ることができることを示した。
さらに, 既存のカスケード手法と比較して, 1) ABCが通信コストを最大14倍に削減するエッジ・ツー・クラウド推論, (2) レンタルコストを3倍に削減するクラウドベースのモデルサービス, (3) ABCが最先端のLCMカスケードと比較してトークン当たり平均価格を2~25倍に削減するモデルAPIサービスによる推論の3つの一般的なシナリオで, ABCの性能について検討する。
関連論文リスト
- Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral [28.382040322550775]
本稿では,既存の品質推定(QE)メトリクスを推論規則として用いた機械翻訳の簡易かつ効果的な手法を提案する。
また,QEに基づくdeferralでは,カスケードシステムにより,より大規模なモデルの性能に適合し,短時間で呼び出すことが可能であることを示す。
論文 参考訳(メタデータ) (2025-02-18T10:05:40Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Faster Cascades via Speculative Decoding [66.16909847419198]
カスケードと投機的復号化は、言語モデルの推論効率を改善するためのアプローチである。
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
我々の手法は、カスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:08Z) - Transferable and Principled Efficiency for Open-Vocabulary Segmentation [82.66423763561697]
事前学習された基礎視覚言語計算モデルの最近の成功は、Open-Vocabulary (OVS)を可能にする。
このアプローチでは,1) 背骨のモデルサイズが大きいこと,2) 微調整時にコストがかかること,の2つの課題に対して,計算上のオーバーヘッドが発生する。
本稿では,大規模な視覚言語基盤モデルに基づいて,従来のOVSに匹敵する,あるいはさらに優れた性能を実現することを目的とする。
論文 参考訳(メタデータ) (2024-04-11T03:08:53Z) - Cabrita: closing the gap for foreign languages [0.0]
特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
論文 参考訳(メタデータ) (2023-08-23T02:49:35Z) - Systematic compactification of the two-channel Kondo model. II. Comparative study of scaling and universality [44.99833362998488]
アンダーソンの単純な貧乏者の手順を用いてスケーリングについて研究する。
スケーリングに伴うフローの仕方に関して,3つのモデル間で共通的な合意を公開しています。
論文 参考訳(メタデータ) (2023-08-07T13:46:45Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。