論文の概要: Learning Harmonized Representations for Speculative Sampling
- arxiv url: http://arxiv.org/abs/2408.15766v3
- Date: Wed, 26 Feb 2025 11:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:54:33.727676
- Title: Learning Harmonized Representations for Speculative Sampling
- Title(参考訳): 投機サンプリングのための調和表現の学習
- Authors: Lefan Zhang, Xiaodan Wang, Yanhua Huang, Ruiwen Xu,
- Abstract要約: 投機的サンプリングは大規模言語モデル(LLM)の復号段階を加速するための有望なアプローチである
我々はこれらの問題に対処するために調和した表現を学習するHArmonized Speculative Smpling (HASS) というソリューションを提案する。
HASSは、調和した客観蒸留と調和したコンテキストアライメントを通じて推論オーバーヘッドを加えることなく、デコードステージを加速する。
- 参考スコア(独自算出の注目度): 6.053109175707596
- License:
- Abstract: Speculative sampling is a promising approach to accelerate the decoding stage for Large Language Models (LLMs). Recent advancements that leverage target LLM's contextual information, such as hidden states and KV cache, have shown significant practical improvements. However, these approaches suffer from inconsistent context between training and decoding. We also observe another discrepancy between the training and decoding objectives in existing speculative sampling methods. In this work, we propose a solution named HArmonized Speculative Sampling (HASS) that learns harmonized representations to address these issues. HASS accelerates the decoding stage without adding inference overhead through harmonized objective distillation and harmonized context alignment. Experiments on four LLaMA models demonstrate that HASS achieves 2.81x-4.05x wall-clock time speedup ratio averaging across three datasets, surpassing EAGLE-2 by 8%-20%. The code is available at https://github.com/HArmonizedSS/HASS.
- Abstract(参考訳): 投機的サンプリングは、LLM(Large Language Models)の復号段階を加速するための有望なアプローチである。
隠れ状態やKVキャッシュなど,LLMのコンテキスト情報を活用する最近の進歩は,大幅な実用性を示している。
しかし、これらのアプローチはトレーニングと復号の間の一貫性のないコンテキストに悩まされる。
また,既存の投機的サンプリング手法における学習目標と復号目標の相違も観察した。
本研究では,これらの問題に対処するための調和表現を学習するHArmonized Speculative Smpling (HASS) というソリューションを提案する。
HASSは、調和した客観蒸留と調和したコンテキストアライメントを通じて推論オーバーヘッドを加えることなく、デコードステージを加速する。
4つのLLaMAモデルによる実験により、HASSは3つのデータセットで平均2.81x-4.05xウォールクロックタイムスピードアップ比を達成し、EAGLE-2を8%-20%上回った。
コードはhttps://github.com/HArmonizedSS/HASSで公開されている。
関連論文リスト
- FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - COSEE: Consistency-Oriented Signal-Based Early Exiting via Calibrated Sample Weighting Mechanism [32.015402521706825]
早期終了は事前学習言語モデル(PLM)の推論効率を改善する効果的なパラダイムである
本稿では,COSEE(Consistency-Oriented Signal-based Early Exiting)フレームワークを提案する。
GLUEベンチマークの実験では、複数の出口信号とバックボーンにまたがるCOSEEの有効性が実証され、パフォーマンスと効率のトレードオフが向上した。
論文 参考訳(メタデータ) (2024-12-17T16:24:55Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Grad-PU: Arbitrary-Scale Point Cloud Upsampling via Gradient Descent
with Learned Distance Functions [77.32043242988738]
我々は、任意のアップサンプリングレートをサポートする、正確なポイントクラウドアップサンプリングのための新しいフレームワークを提案する。
提案手法は,まず,所定のアップサンプリング率に応じて低解像度の雲を補間する。
論文 参考訳(メタデータ) (2023-04-24T06:36:35Z) - Off-Policy Reinforcement Learning with Loss Function Weighted by
Temporal Difference Error [2.255666468574186]
政治外の深層学習(RL)によるトレーニングエージェントは、学習に使用される過去の経験を記憶する、リプレイメモリと呼ばれる大きなメモリを必要とする。
損失関数を計算するとき、非政治アルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。
本稿では,学習段階における損失関数を計算する際に,経験ごとに重み付け係数を導入する手法を提案する。
論文 参考訳(メタデータ) (2022-12-26T14:32:16Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Narrowing the Gap: Improved Detector Training with Noisy Location
Annotations [32.6077497559231]
本稿では,ノイズの多い位置アノテーションが物体検出手法の性能に与える影響に着目した。
雑音の多い位置アノテーションをよりよく活用するための予測アンサンブルのためのベイズフィルタに基づく自己補正手法を提案する。
論文 参考訳(メタデータ) (2022-06-12T10:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。