論文の概要: Harmonized Speculative Sampling
- arxiv url: http://arxiv.org/abs/2408.15766v1
- Date: Wed, 28 Aug 2024 12:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:00:49.876493
- Title: Harmonized Speculative Sampling
- Title(参考訳): 調和型投機サンプリング
- Authors: Lefan Zhang, Xiaodan Wang, Yanhua Huang, Ruiwen Xu,
- Abstract要約: 投機的サンプリングは,大規模言語モデルからの復号化を加速する有効な解法であることが証明されている。
我々はHArmonized Speculative Smpling (HASS) という解を提案する。
HASSは、トレーニングと目的とコンテキストのデコーディングを調和させることで、追加の推論オーバーヘッドなしに受け入れ率を改善する。
- 参考スコア(独自算出の注目度): 6.053109175707596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speculative sampling has proven to be an effective solution to accelerate decoding from large language models, where the acceptance rate significantly determines the performance. Most previous works on improving the acceptance rate focus on aligned training and efficient decoding, implicitly paying less attention to the linkage of training and decoding. In this work, we first investigate the linkage of training and decoding for speculative sampling and then propose a solution named HArmonized Speculative Sampling (HASS). HASS improves the acceptance rate without extra inference overhead by harmonizing training and decoding on their objectives and contexts. Experiments on three LLaMA models demonstrate that HASS achieves 2.81x-3.65x wall-clock time speedup ratio averaging across three datasets, which is 8%-15% faster than EAGLE-2.
- Abstract(参考訳): 投機的サンプリングは大規模言語モデルからの復号を高速化する有効な解であることが証明されている。
これまでのほとんどの作業では、アラインメントトレーニングと効率的なデコーディングに重点を置いて、トレーニングとデコーディングのリンクに暗黙的に注意を払っている。
本研究ではまず,投機サンプリングのためのトレーニングと復号のリンクについて検討し,HArmonized Speculative Smpling (HASS) という解を提案する。
HASSは、トレーニングと目的とコンテキストのデコーディングを調和させることで、追加の推論オーバーヘッドなしに受け入れ率を改善する。
3つのLLaMAモデルに対する実験により、HASSは3つのデータセットで平均2.81x-3.65xのウォールクロックタイム・スピードアップを達成しており、これはEAGLE-2よりも8%-15%高速である。
関連論文リスト
- Fast-OMRA: Fast Online Motion Resolution Adaptation for Neural B-Frame Coding [5.815424522820603]
階層的時間予測を持つほとんどの学習されたBフレームコーデックは、トレーニングとテストに使用されるGOP(Group-of-Pictures)サイズの違いによって生じるドメインシフトの問題に悩まされる。
この領域シフト問題を解決する効果的な戦略の1つは、モーション推定のためにビデオフレームをダウンサンプルすることである。
この研究は、ダウンサンプリング係数を決定するための軽量な分類器を導入している。
論文 参考訳(メタデータ) (2024-10-29T05:57:32Z) - Optimized Speculative Sampling for GPU Hardware Accelerators [14.681982904792763]
並列ハードウェアアクセラレータの投機的サンプリングを最適化し,サンプリング速度を向上する。
ワークロードを複数のGPUスレッドに分散し、スレッドブロック内の行列セグメントの同時操作を可能にします。
本手法の有効性を検証するために,音声認識と要約タスクの両方について広範な実験を行った。
論文 参考訳(メタデータ) (2024-06-16T17:19:23Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Grad-PU: Arbitrary-Scale Point Cloud Upsampling via Gradient Descent
with Learned Distance Functions [77.32043242988738]
我々は、任意のアップサンプリングレートをサポートする、正確なポイントクラウドアップサンプリングのための新しいフレームワークを提案する。
提案手法は,まず,所定のアップサンプリング率に応じて低解像度の雲を補間する。
論文 参考訳(メタデータ) (2023-04-24T06:36:35Z) - On the Theories Behind Hard Negative Sampling for Recommendation [51.64626293229085]
ハードネガティブサンプリング(HNS)を効果的に活用するための2つの洞察に富んだガイドラインを提供する。
パーソナライズされたランク付け(BPR)学習者におけるHNSの利用は、一方通行部分AUC(OPAUC)の最適化と等価であることを示す。
これらの分析は、初めてトップKレコメンデーションパフォーマンスを最適化するHNSの理論的基盤を確立する。
論文 参考訳(メタデータ) (2023-02-07T13:57:03Z) - Off-Policy Reinforcement Learning with Loss Function Weighted by
Temporal Difference Error [2.255666468574186]
政治外の深層学習(RL)によるトレーニングエージェントは、学習に使用される過去の経験を記憶する、リプレイメモリと呼ばれる大きなメモリを必要とする。
損失関数を計算するとき、非政治アルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。
本稿では,学習段階における損失関数を計算する際に,経験ごとに重み付け係数を導入する手法を提案する。
論文 参考訳(メタデータ) (2022-12-26T14:32:16Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Narrowing the Gap: Improved Detector Training with Noisy Location
Annotations [32.6077497559231]
本稿では,ノイズの多い位置アノテーションが物体検出手法の性能に与える影響に着目した。
雑音の多い位置アノテーションをよりよく活用するための予測アンサンブルのためのベイズフィルタに基づく自己補正手法を提案する。
論文 参考訳(メタデータ) (2022-06-12T10:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。