論文の概要: Temperature-Centric Investigation of Speculative Decoding with Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2410.10141v1
- Date: Mon, 14 Oct 2024 04:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:54:14.415013
- Title: Temperature-Centric Investigation of Speculative Decoding with Knowledge Distillation
- Title(参考訳): 知識蒸留による投機的復号の温度中心解析
- Authors: Siru Ouyang, Shuohang Wang, Minhao Jiang, Ming Zhong, Donghan Yu, Jiawei Han, Yelong Shen,
- Abstract要約: 本稿では,復号化温度が投機的復号化効果に及ぼす影響を考察する。
我々はまず、高温での復号化の課題を強調し、一貫した温度設定でKDを実証することが治療である可能性を実証した。
これらの知見に基づいて,特に高温環境での投機的復号化の高速化を図った。
- 参考スコア(独自算出の注目度): 76.5894260737116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding stands as a pivotal technique to expedite inference in autoregressive (large) language models. This method employs a smaller draft model to speculate a block of tokens, which the target model then evaluates for acceptance. Despite a wealth of studies aimed at increasing the efficiency of speculative decoding, the influence of generation configurations on the decoding process remains poorly understood, especially concerning decoding temperatures. This paper delves into the effects of decoding temperatures on speculative decoding's efficacy. Beginning with knowledge distillation (KD), we first highlight the challenge of decoding at higher temperatures, and demonstrate KD in a consistent temperature setting could be a remedy. We also investigate the effects of out-of-domain testing sets with out-of-range temperatures. Building upon these findings, we take an initial step to further the speedup for speculative decoding, particularly in a high-temperature generation setting. Our work offers new insights into how generation configurations drastically affect the performance of speculative decoding, and underscores the need for developing methods that focus on diverse decoding configurations. Code is publically available at https://github.com/ozyyshr/TempSpec.
- Abstract(参考訳): 投機的復号化は、自己回帰(大規模)言語モデルにおいて推論を迅速化する重要な手法である。
この方法は、より小さなドラフトモデルを用いてトークンのブロックを推測し、ターゲットモデルが受け入れのために評価する。
投機的復号化の効率向上を目的とした多くの研究にもかかわらず、生成構成が復号化過程に与える影響は、特に復号化温度についてよく理解されていない。
本稿では,復号化温度が投機的復号化効果に及ぼす影響を考察する。
知識蒸留(KD)から始め、我々はまず高温での復号化の課題を強調し、一貫した温度設定でKDを再現できることを実証する。
また,領域外温度テストセットの効果についても検討した。
これらの知見に基づいて、特に高温環境での投機的復号化のスピードアップを推し進める第一歩を踏み出した。
我々の研究は、生成構成が投機的復号化の性能にどのように大きく影響するかに関する新たな洞察を与え、多様な復号化構成にフォーカスする手法の開発の必要性を浮き彫りにしている。
コードはhttps://github.com/ozyyshr/TempSpec.comで公開されている。
関連論文リスト
- Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Instance Temperature Knowledge Distillation [15.095465128404161]
既存の学習方法は、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。
本稿では,温度調整を逐次意思決定タスクとして定式化し,強化学習に基づく手法を提案する。
我々のフレームワークは、様々なKDメソッドに簡単に挿入できるプラグイン・アンド・プレイ技術として機能する。
論文 参考訳(メタデータ) (2024-06-27T14:00:05Z) - Efficient Sample-Specific Encoder Perturbations [37.84914870036184]
凍結基礎モデルのエンコーダ出力のサンプル・バイ・サンプル摂動を求めるために,小さなプロキシ・ネットワークが利用できることを示す。
その結果,COMET と WER で評価した性能は一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-05-01T08:55:16Z) - Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Testing the Accuracy of Surface Code Decoders [55.616364225463066]
大規模でフォールトトレラントな量子計算は量子エラー訂正符号(QECC)によって実現される
本研究は,QECC復号方式の精度と有効性をテストするための最初の体系的手法である。
論文 参考訳(メタデータ) (2023-11-21T10:22:08Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。