論文の概要: On Optimal Caching and Model Multiplexing for Large Model Inference
- arxiv url: http://arxiv.org/abs/2306.02003v1
- Date: Sat, 3 Jun 2023 05:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:43:33.318685
- Title: On Optimal Caching and Model Multiplexing for Large Model Inference
- Title(参考訳): 大規模モデル推論のための最適キャッシングとモデル多重化について
- Authors: Banghua Zhu, Ying Sheng, Lianmin Zheng, Clark Barrett, Michael I.
Jordan, Jiantao Jiao
- Abstract要約: 大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
- 参考スコア(独自算出の注目度): 73.75358612766672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and other large foundation models have achieved
noteworthy success, but their size exacerbates existing resource consumption
and latency challenges. In particular, the large-scale deployment of these
models is hindered by the significant resource requirements during inference.
In this paper, we study two approaches for mitigating these challenges:
employing a cache to store previous queries and learning a model multiplexer to
choose from an ensemble of models for query processing.
Theoretically, we provide an optimal algorithm for jointly optimizing both
approaches to reduce the inference cost in both offline and online tabular
settings. By combining a caching algorithm, namely Greedy Dual Size with
Frequency (GDSF) or Least Expected Cost (LEC), with a model multiplexer, we
achieve optimal rates in both offline and online settings. Empirically,
simulations show that the combination of our caching and model multiplexing
algorithms greatly improves over the baselines, with up to $50\times$
improvement over the baseline when the ratio between the maximum cost and
minimum cost is $100$. Experiments on real datasets show a $4.3\times$
improvement in FLOPs over the baseline when the ratio for FLOPs is $10$, and a
$1.8\times$ improvement in latency when the ratio for average latency is
$1.85$.
- Abstract(参考訳): 大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
特に、これらのモデルの大規模展開は、推論中の重要なリソース要求によって妨げられます。
本稿では,これらの課題を緩和するための2つのアプローチについて検討する。従来のクエリをキャッシュで格納し,クエリ処理のモデル群から選択するモデル多重化を学習する。
理論的には、オフラインとオンラインの両方の表表設定における推論コストを削減するために、両方のアプローチを協調的に最適化する最適なアルゴリズムを提供する。
キャッシュアルゴリズム、すなわちGreedy Dual Size with Frequency(GDSF)またはLeast expecteded Cost(LEC)をモデル多重化器と組み合わせることで、オフラインおよびオンライン両方の設定で最適なレートを達成する。
シミュレーションにより、キャッシングとモデル多重化のアルゴリズムの組み合わせはベースラインよりも大幅に改善され、最大コストと最小コストの比率が100ドルである場合、ベースラインよりも最大50ドル以上改善されることが示された。
実際のデータセットの実験では、FLOPsの比率が10ドルである場合、FLOPsのベースラインに対する改善は4.3ドル、平均レイテンシの比率が1.85ドルである場合は1.8ドルである。
関連論文リスト
- Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Revisiting Cascaded Ensembles for Efficient Inference [32.914852531806]
機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
論文 参考訳(メタデータ) (2024-07-02T15:14:12Z) - TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks [36.39118138582416]
次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。
エッジサーバにモデルをキャッシュすることで、モバイルネットワークは、低レイテンシでエンドユーザにモデルを配信することができる。
我々はパラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置方式を開発する。
論文 参考訳(メタデータ) (2024-05-07T04:08:49Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Multi-Purchase Behavior: Modeling, Estimation and Optimization [0.9337154228221861]
本稿では,Bundle-MVL-Kファミリーと呼ばれる,同種の選択モデルのマルチ購入ファミリを提案する。
このモデルに対して最適化されたレコメンデーションを効率的に計算するバイナリ検索に基づく反復戦略を開発する。
論文 参考訳(メタデータ) (2020-06-14T23:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。