Fugu-MT 論文翻訳(概要): Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO

論文の概要: Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO

arxiv url: http://arxiv.org/abs/2311.04951v1
Date: Wed, 8 Nov 2023 14:08:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 16:54:44.669895
Title: Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO
Title（参考訳）: OpenVINOを用いたAI生成のための投機サンプリングとKVキャッシュの最適化
Authors: Haim Barad, Ekaterina Aidova, Yury Gorbachev
Abstract要約: 推論最適化は、ユーザーエクスペリエンスを改善し、インフラコストと消費電力を減らすために重要である。本稿では,テキスト生成の全体的な遅延を低減するため,投機的サンプリングとして知られる動的実行の形式を説明する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inference optimizations are critical for improving user experience and reducing infrastructure costs and power consumption. In this article, we illustrate a form of dynamic execution known as speculative sampling to reduce the overall latency of text generation and compare it with standard autoregressive sampling. This can be used together with model-based optimizations (e.g. quantization) to provide an optimized solution. Both sampling methods make use of KV caching. A Jupyter notebook and some sample executions are provided.
Abstract（参考訳）: 推論の最適化は、ユーザエクスペリエンスの改善とインフラストラクチャのコストと消費電力の削減に不可欠である。本稿では,テキスト生成の遅延を削減し,標準の自己回帰サンプリングと比較するために,投機的サンプリングと呼ばれる動的実行形式を示す。これは、最適化されたソリューションを提供するためにモデルベースの最適化(量子化など)と一緒に使用できる。どちらのサンプリング手法もKVキャッシュを利用する。 Jupyterノートとサンプル実行が提供される。

関連論文リスト

Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。 L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文参考訳（メタデータ） (2025-03-14T14:48:12Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T00:59:19Z)
Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing [13.775902519100075]
圧縮センシング(CS)は、ナイキストサンプリングの非効率性を克服するために出現している。ディープラーニングベースの再構築は、最適化ベースの再構築に代わる有望な代替手段である。
論文参考訳（メタデータ） (2024-09-18T06:51:29Z)
Implicit Diffusion: Efficient Optimization through Stochastic Sampling [46.049117719591635]
パラメータ化拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。エネルギーベースモデルのトレーニングや拡散の微調整に応用する。
論文参考訳（メタデータ） (2024-02-08T08:00:11Z)
Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文参考訳（メタデータ） (2023-11-22T19:36:47Z)
Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文参考訳（メタデータ） (2023-11-01T11:52:41Z)
FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文参考訳（メタデータ） (2023-06-28T13:00:17Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。 FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文参考訳（メタデータ） (2021-09-13T08:31:59Z)
A Constant-time Adaptive Negative Sampling [33.585006286223994]
サンプリングスキームが真に適応し,一定の時間内に負のサンプルを生成できる分布のクラスを示す。 C++のコモディティCPUへの実装は、ウォールクロック時間の観点から、はるかに高速です。
論文参考訳（メタデータ） (2020-12-31T18:56:41Z)
BOSH: Bayesian Optimization by Sampling Hierarchically [10.10241176664951]
本稿では,階層的なガウス過程と情報理論の枠組みを組み合わせたBOルーチンを提案する。 BOSHは, ベンチマーク, シミュレーション最適化, 強化学習, ハイパーパラメータチューニングタスクにおいて, 標準BOよりも効率的で高精度な最適化を実現する。
論文参考訳（メタデータ） (2020-07-02T07:35:49Z)
Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文参考訳（メタデータ） (2020-06-04T09:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。