論文の概要: Leveraging Speculative Sampling and KV-Cache Optimizations Together for
Generative AI using OpenVINO
- arxiv url: http://arxiv.org/abs/2311.04951v1
- Date: Wed, 8 Nov 2023 14:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:54:44.669895
- Title: Leveraging Speculative Sampling and KV-Cache Optimizations Together for
Generative AI using OpenVINO
- Title(参考訳): OpenVINOを用いたAI生成のための投機サンプリングとKVキャッシュの最適化
- Authors: Haim Barad, Ekaterina Aidova, Yury Gorbachev
- Abstract要約: 推論最適化は、ユーザーエクスペリエンスを改善し、インフラコストと消費電力を減らすために重要である。
本稿では,テキスト生成の全体的な遅延を低減するため,投機的サンプリングとして知られる動的実行の形式を説明する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference optimizations are critical for improving user experience and
reducing infrastructure costs and power consumption. In this article, we
illustrate a form of dynamic execution known as speculative sampling to reduce
the overall latency of text generation and compare it with standard
autoregressive sampling. This can be used together with model-based
optimizations (e.g. quantization) to provide an optimized solution. Both
sampling methods make use of KV caching. A Jupyter notebook and some sample
executions are provided.
- Abstract(参考訳): 推論の最適化は、ユーザエクスペリエンスの改善とインフラストラクチャのコストと消費電力の削減に不可欠である。
本稿では,テキスト生成の遅延を削減し,標準の自己回帰サンプリングと比較するために,投機的サンプリングと呼ばれる動的実行形式を示す。
これは、最適化されたソリューションを提供するためにモデルベースの最適化(量子化など)と一緒に使用できる。
どちらのサンプリング手法もKVキャッシュを利用する。
Jupyterノートとサンプル実行が提供される。
関連論文リスト
- Implicit Diffusion: Efficient Optimization through Stochastic Sampling [46.56122453571896]
パラメータ化拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。
本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。
本研究では,提案手法の性能に関する理論的保証と,実環境における有効性を示す実験結果を提供する。
論文 参考訳(メタデータ) (2024-02-08T08:00:11Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Enhanced Federated Optimization: Adaptive Unbiased Sampling with Reduced
Variance [39.89099181979736]
Federated Learning(FL)は、ローカルデータを収集することなく、複数のデバイスでグローバルモデルをトレーニングする分散学習パラダイムである。
独立サンプリング手法を用いて,最初の適応型クライアントサンプリング器K-Vibを提案する。
K-Vibは、一連の通信予算の中で、後悔すべき$tildemathcalObig(Nfrac13Tfrac23/Kfrac43big)$の線形スピードアップを達成する。
論文 参考訳(メタデータ) (2023-10-04T10:08:01Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Efficient distributed representations beyond negative sampling [4.5687771576879594]
本稿では,分散表現を効率よく学習する手法について述べる。
我々は,sotfmax正規化定数を線形時間で推定でき,効率的な最適化戦略を設計できることを示した。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - BOSH: Bayesian Optimization by Sampling Hierarchically [10.10241176664951]
本稿では,階層的なガウス過程と情報理論の枠組みを組み合わせたBOルーチンを提案する。
BOSHは, ベンチマーク, シミュレーション最適化, 強化学習, ハイパーパラメータチューニングタスクにおいて, 標準BOよりも効率的で高精度な最適化を実現する。
論文 参考訳(メタデータ) (2020-07-02T07:35:49Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。