論文の概要: Flatter Tokens are More Valuable for Speculative Draft Model Training
- arxiv url: http://arxiv.org/abs/2601.18902v1
- Date: Mon, 26 Jan 2026 19:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.036082
- Title: Flatter Tokens are More Valuable for Speculative Draft Model Training
- Title(参考訳): 投機的ドラフトモデルトレーニングにおけるフレッタートークンの有用性
- Authors: Jiaming Fan, Daming Cao, Xiangzhong Luo, Jiale Fu, Chonghan Liu, Xu Yang,
- Abstract要約: 投機的復号化(SD)は,Large Language Model (LLM)推論を高速化するための重要な手法である。
データ中心の観点からこの問題にアプローチし、すべてのトレーニングサンプルがSD受入率に等しく寄与するわけではないことを発見した。
この特性を定量化するための新しい指標である平坦性を提案し、サンプルレベルの平坦性に基づくデータセット蒸留(SFDD)手法を開発した。
- 参考スコア(独自算出の注目度): 8.13138934199466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative Decoding (SD) is a key technique for accelerating Large Language Model (LLM) inference, but it typically requires training a draft model on a large dataset. We approach this problem from a data-centric perspective, finding that not all training samples contribute equally to the SD acceptance rate. Specifically, our theoretical analysis and empirical validation reveals that tokens inducing flatter predictive distributions from the target model are more valuable than those yielding sharply peaked distributions. Based on this insight, we propose flatness, a new metric to quantify this property, and develop the Sample-level-flatness-based Dataset Distillation (SFDD) approach, which filters the training data to retain only the most valuable samples. Experiments on the EAGLE framework demonstrate that SFDD can achieve over 2$\times$ training speedup using only 50% of the data, while keeping the final model's inference speedup within 4% of the full-dataset baseline. This work introduces an effective, data-centric approach that substantially improves the training efficiency for Speculative Decoding. Our code is available at https://anonymous.4open.science/r/Flatness.
- Abstract(参考訳): 投機的復号化(SD)は、Large Language Model (LLM)推論を高速化するための重要なテクニックであるが、通常、大きなデータセットでドラフトモデルをトレーニングする必要がある。
データ中心の観点からこの問題にアプローチし、すべてのトレーニングサンプルがSD受入率に等しく寄与するわけではないことを発見した。
具体的には, 対象モデルからより平坦な予測分布を誘導するトークンが, 急激なピーク分布を得るトークンよりも貴重であることを示す。
この知見に基づき、この特性を定量化するための新しい指標である平坦性を提案し、最も価値のあるサンプルのみを保持するためにトレーニングデータをフィルタリングするサンプルレベル平坦性に基づくデータセット蒸留(SFDD)手法を開発した。
EAGLEフレームワークの実験では、最終モデルの推論速度を全データセットベースラインの4%に抑えながら、データの50%しか使用せずに、SFDDが2$\times$トレーニングスピードアップを達成できることが示されている。
この研究は、投機的デコーディングのトレーニング効率を大幅に改善する効果的なデータ中心のアプローチを導入している。
私たちのコードはhttps://anonymous.4open.science/r/Flatness.comで利用可能です。
関連論文リスト
- Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice [109.9635246405237]
データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、反転できることを示す。
評価プロトコルに簡単なパッチを導入し、プロキシモデルのトレーニングに学習率を削減した。
実験により,データキュレーションの4つの重要な次元をカバーする23種類のデータレシピに対して,このアプローチを検証した。
論文 参考訳(メタデータ) (2025-12-30T23:02:44Z) - Optimizing the Training Diet: Data Mixture Search for Robust Time Series Forecasting [0.8665758002017515]
データセットを考える場合、いくつかのケースでは"なしはそれ以上"であることが示されます。
本稿では,大規模・未ラベルの時系列コーパスから最適な「トレーニングダイエット」を発見するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:26:07Z) - CoDA: From Text-to-Image Diffusion Models to Training-Free Dataset Distillation [71.52209438343928]
コア分散アライメント(Core Distribution Alignment, CoDA)は、市販のテキスト・ツー・イメージモデルのみを使用して効果的な蒸留(DD)を可能にするフレームワークである。
私たちのキーとなるアイデアは、まず、ロバストな密度ベースの発見メカニズムを使用して、ターゲットデータセットの"固有のコア分布"を識別することです。
そうすることで、CoDAは汎用的な生成先行とターゲットセマンティクスのギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-12-03T14:45:57Z) - Progressive Data Dropout: An Embarrassingly Simple Approach to Faster Training [34.76379453286399]
ハードデータマイニングとドロップアウトの洞察を活用するための,代替的なトレーニングパラダイムを提案する。
提案されたプログレッシブデータドロップアウトは、有効エポックの数をベースラインの12.4%に削減する。
驚くべきことに,提案手法は最大4.82%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-28T13:26:52Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Dataset Ownership Verification in Contrastive Pre-trained Models [37.03747798645621]
コントラスト学習による自己教師付き事前学習モデルに適した,最初のデータセットオーナシップ検証手法を提案する。
提案手法の有効性を,SimCLR, BYOL, SimSiam, MOCO v3, DINO など,複数のコントラスト付き事前学習モデルで検証した。
論文 参考訳(メタデータ) (2025-02-11T05:42:21Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。