論文の概要: TPP-SD: Accelerating Transformer Point Process Sampling with Speculative Decoding
- arxiv url: http://arxiv.org/abs/2507.09252v2
- Date: Thu, 31 Jul 2025 12:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.228392
- Title: TPP-SD: Accelerating Transformer Point Process Sampling with Speculative Decoding
- Title(参考訳): TPP-SD: 投機復号化による変圧器点探索の高速化
- Authors: Shukai Gong, Yiyang Fu, Fengyuan Ran, Quyu Kong, Feng Zhou,
- Abstract要約: 本稿では,Transformer temporal point process (TPP) サンプリングを高速化する新しい手法であるTPP-SDを提案する。
TPPのスライニングアルゴリズムと言語モデルの投機的復号化という構造的類似性を同定することにより,効率的なサンプリングフレームワークを開発する。
合成データと実データの両方の実験により,本手法は標準手法と同一の分布からサンプルを生成するが,2-6$times$ speedupで生成することを示した。
- 参考スコア(独自算出の注目度): 5.402545370057643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TPP-SD, a novel approach that accelerates Transformer temporal point process (TPP) sampling by adapting speculative decoding (SD) techniques from language models. By identifying the structural similarities between thinning algorithms for TPPs and speculative decoding for language models, we develop an efficient sampling framework that leverages a smaller draft model to generate multiple candidate events, which are then verified by the larger target model in parallel. TPP-SD maintains the same output distribution as autoregressive sampling while achieving significant acceleration. Experiments on both synthetic and real datasets demonstrate that our approach produces samples from identical distributions as standard methods, but with 2-6$\times$ speedup. Our ablation studies analyze the impact of hyperparameters such as draft length and draft model size on sampling efficiency. TPP-SD bridges the gap between powerful Transformer TPP models and the practical need for rapid sequence sampling.
- Abstract(参考訳): 本稿では,Transformer temporal point process (TPP) サンプリングを高速化する新しい手法であるTPP-SDを提案する。
提案手法は,TPPの薄型化アルゴリズムと言語モデルの投機的復号化アルゴリズムの構造的類似性を同定することにより,より小さなドラフトモデルを用いて複数の候補イベントを生成し,さらに大きなターゲットモデルによって並列に検証する効率的なサンプリングフレームワークを開発する。
TPP-SDは自己回帰サンプリングと同じ出力分布を維持しながら、大きな加速を実現している。
合成データと実データの両方の実験により、我々の手法は標準手法と同じ分布からサンプルを生成するが、2-6$\times$ speedupで生成することを示した。
我々のアブレーション研究は,サンプリング効率に及ぼすドラフト長やドラフトモデルサイズなどのハイパーパラメータの影響を解析した。
TPP-SDは、強力なTransformer TPPモデル間のギャップと、高速シーケンスサンプリングの実践的必要性を橋渡しする。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - $\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models [16.738569359216438]
我々は、余分な計算コストを伴わずにCDEを最小化することにより、離散サンプリングタイムステップの割り当てを最適化する新しいアプローチである、textitJump Your Steps$(JYS)を提示する。
画像、音楽、テキスト生成に関する実験では、JYSはサンプリング品質を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-10T09:44:25Z) - T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with
Trajectory Stitching [143.72720563387082]
Trajectory Stitching T-Stitchは, ほとんどあるいは全く発生しないことなくサンプリング効率を向上させるための, 単純かつ効率的な手法である。
我々の重要な洞察は、異なる拡散モデルが同じトレーニングデータ分布の下で同様のエンコーディングを学ぶことである。
また,本手法は,SDモデルの高速化を目的としたドロップイン手法としても利用できる。
論文 参考訳(メタデータ) (2024-02-21T23:08:54Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - Plug-and-Play split Gibbs sampler: embedding deep generative priors in
Bayesian inference [12.91637880428221]
本稿では, 後方分布から効率的にサンプリングするために, 可変分割を利用したプラグアンドプレイサンプリングアルゴリズムを提案する。
後方サンプリングの課題を2つの単純なサンプリング問題に分割する。
その性能は最近の最先端の最適化とサンプリング手法と比較される。
論文 参考訳(メタデータ) (2023-04-21T17:17:51Z) - Accelerating Large Language Model Decoding with Speculative Sampling [9.851546623666588]
投機的サンプリング(英: Speculative sample)とは、変換器の呼び出し毎に複数のトークンを生成することで、変換器の復号を高速化するアルゴリズムである。
我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、分散セットアップで2-2.5倍のデコード速度を達成する。
論文 参考訳(メタデータ) (2023-02-02T18:44:11Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Parallelised Diffeomorphic Sampling-based Motion Planning [30.310891362316863]
並列化拡散型サンプリングベースモーションプランニング(PDMP)を提案する。
PDMPは、サンプリングベースモーションプランナーのサンプリング分布を、正規化フローに似た方法で変換する。
PDMPは、コストの勾配情報を利用して、最適化ベースのモーションプランニング手法と同様の方法で仕様を注入することができる。
論文 参考訳(メタデータ) (2021-08-26T13:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。