論文の概要: Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO
- arxiv url: http://arxiv.org/abs/2311.04951v2
- Date: Tue, 9 Apr 2024 11:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:06:52.125483
- Title: Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO
- Title(参考訳): OpenVINOを用いたジェネレーティブAIのための投機サンプリングとKVキャッシュ最適化の併用
- Authors: Haim Barad, Ekaterina Aidova, Yury Gorbachev,
- Abstract要約: 推論最適化は、ユーザーエクスペリエンスを改善し、インフラコストと消費電力を減らすために重要である。
本稿では,テキスト生成の全体的な遅延を低減するため,投機的サンプリングとして知られる動的実行の形式を説明する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference optimizations are critical for improving user experience and reducing infrastructure costs and power consumption. In this article, we illustrate a form of dynamic execution known as speculative sampling to reduce the overall latency of text generation and compare it with standard autoregressive sampling. This can be used together with model-based optimizations (e.g. quantization) to provide an optimized solution. Both sampling methods make use of KV caching. A Jupyter notebook and some sample executions are provided.
- Abstract(参考訳): 推論最適化は、ユーザーエクスペリエンスを改善し、インフラコストと消費電力を減らすために重要である。
本稿では,テキスト生成の全体的な遅延を低減するために投機的サンプリングとして知られる動的実行の形式を説明し,それを標準的な自己回帰サンプリングと比較する。
これは、最適化されたソリューションを提供するためにモデルベースの最適化(例えば量子化)と一緒に使用できる。
どちらのサンプリング手法もKVキャッシュを利用する。
Jupyterノートとサンプル実行が提供される。
関連論文リスト
- Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing [13.775902519100075]
圧縮センシング(CS)は、ナイキストサンプリングの非効率性を克服するために出現している。
ディープラーニングベースの再構築は、最適化ベースの再構築に代わる有望な代替手段である。
論文 参考訳(メタデータ) (2024-09-18T06:51:29Z) - Implicit Diffusion: Efficient Optimization through Stochastic Sampling [46.049117719591635]
パラメータ化拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。
本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。
エネルギーベースモデルのトレーニングや拡散の微調整に応用する。
論文 参考訳(メタデータ) (2024-02-08T08:00:11Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - A Constant-time Adaptive Negative Sampling [33.585006286223994]
サンプリングスキームが真に適応し,一定の時間内に負のサンプルを生成できる分布のクラスを示す。
C++のコモディティCPUへの実装は、ウォールクロック時間の観点から、はるかに高速です。
論文 参考訳(メタデータ) (2020-12-31T18:56:41Z) - BOSH: Bayesian Optimization by Sampling Hierarchically [10.10241176664951]
本稿では,階層的なガウス過程と情報理論の枠組みを組み合わせたBOルーチンを提案する。
BOSHは, ベンチマーク, シミュレーション最適化, 強化学習, ハイパーパラメータチューニングタスクにおいて, 標準BOよりも効率的で高精度な最適化を実現する。
論文 参考訳(メタデータ) (2020-07-02T07:35:49Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。