論文の概要: Harmonized Speculative Sampling
- arxiv url: http://arxiv.org/abs/2408.15766v1
- Date: Wed, 28 Aug 2024 12:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:00:49.876493
- Title: Harmonized Speculative Sampling
- Title(参考訳): 調和型投機サンプリング
- Authors: Lefan Zhang, Xiaodan Wang, Yanhua Huang, Ruiwen Xu,
- Abstract要約: 投機的サンプリングは,大規模言語モデルからの復号化を加速する有効な解法であることが証明されている。
我々はHArmonized Speculative Smpling (HASS) という解を提案する。
HASSは、トレーニングと目的とコンテキストのデコーディングを調和させることで、追加の推論オーバーヘッドなしに受け入れ率を改善する。
- 参考スコア(独自算出の注目度): 6.053109175707596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speculative sampling has proven to be an effective solution to accelerate decoding from large language models, where the acceptance rate significantly determines the performance. Most previous works on improving the acceptance rate focus on aligned training and efficient decoding, implicitly paying less attention to the linkage of training and decoding. In this work, we first investigate the linkage of training and decoding for speculative sampling and then propose a solution named HArmonized Speculative Sampling (HASS). HASS improves the acceptance rate without extra inference overhead by harmonizing training and decoding on their objectives and contexts. Experiments on three LLaMA models demonstrate that HASS achieves 2.81x-3.65x wall-clock time speedup ratio averaging across three datasets, which is 8%-15% faster than EAGLE-2.
- Abstract(参考訳): 投機的サンプリングは大規模言語モデルからの復号を高速化する有効な解であることが証明されている。
これまでのほとんどの作業では、アラインメントトレーニングと効率的なデコーディングに重点を置いて、トレーニングとデコーディングのリンクに暗黙的に注意を払っている。
本研究ではまず,投機サンプリングのためのトレーニングと復号のリンクについて検討し,HArmonized Speculative Smpling (HASS) という解を提案する。
HASSは、トレーニングと目的とコンテキストのデコーディングを調和させることで、追加の推論オーバーヘッドなしに受け入れ率を改善する。
3つのLLaMAモデルに対する実験により、HASSは3つのデータセットで平均2.81x-3.65xのウォールクロックタイム・スピードアップを達成しており、これはEAGLE-2よりも8%-15%高速である。
関連論文リスト
- FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - COSEE: Consistency-Oriented Signal-Based Early Exiting via Calibrated Sample Weighting Mechanism [32.015402521706825]
早期終了は事前学習言語モデル(PLM)の推論効率を改善する効果的なパラダイムである
本稿では,COSEE(Consistency-Oriented Signal-based Early Exiting)フレームワークを提案する。
GLUEベンチマークの実験では、複数の出口信号とバックボーンにまたがるCOSEEの有効性が実証され、パフォーマンスと効率のトレードオフが向上した。
論文 参考訳(メタデータ) (2024-12-17T16:24:55Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Grad-PU: Arbitrary-Scale Point Cloud Upsampling via Gradient Descent
with Learned Distance Functions [77.32043242988738]
我々は、任意のアップサンプリングレートをサポートする、正確なポイントクラウドアップサンプリングのための新しいフレームワークを提案する。
提案手法は,まず,所定のアップサンプリング率に応じて低解像度の雲を補間する。
論文 参考訳(メタデータ) (2023-04-24T06:36:35Z) - Off-Policy Reinforcement Learning with Loss Function Weighted by
Temporal Difference Error [2.255666468574186]
政治外の深層学習(RL)によるトレーニングエージェントは、学習に使用される過去の経験を記憶する、リプレイメモリと呼ばれる大きなメモリを必要とする。
損失関数を計算するとき、非政治アルゴリズムは全てのサンプルが同じ重要性を持つと仮定する。
本稿では,学習段階における損失関数を計算する際に,経験ごとに重み付け係数を導入する手法を提案する。
論文 参考訳(メタデータ) (2022-12-26T14:32:16Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Narrowing the Gap: Improved Detector Training with Noisy Location
Annotations [32.6077497559231]
本稿では,ノイズの多い位置アノテーションが物体検出手法の性能に与える影響に着目した。
雑音の多い位置アノテーションをよりよく活用するための予測アンサンブルのためのベイズフィルタに基づく自己補正手法を提案する。
論文 参考訳(メタデータ) (2022-06-12T10:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。