論文の概要: DSDE: Dynamic Speculative Decoding with KLD Stability for Real-World Serving
- arxiv url: http://arxiv.org/abs/2509.01083v2
- Date: Mon, 08 Sep 2025 03:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.352722
- Title: DSDE: Dynamic Speculative Decoding with KLD Stability for Real-World Serving
- Title(参考訳): DSDE: KLD安定化による動的投機的復号化
- Authors: Mingyu Yang, Jae-Young Choi, Kihyo Moon, Minsung Jang, Eunjoo Jeon,
- Abstract要約: 本稿では, ポストホック, 診断信号の新たなクラスを探索し, 動的適応のための新しい方向について検討する。
本稿では,2つの主要コンポーネント上に構築されたトレーニングフリーフレームワークであるDynamic Speculative Decoding Engine (DSDE)を提案する。
実験では、動的適応にKLDベースの安定性信号を使用する可能性を示す。
- 参考スコア(独自算出の注目度): 7.444978746197347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates large language model inference, but its reliance on a fixed speculation length is suboptimal in large-batch serving environments with diverse requests. This paper explores a new direction for dynamic adaptation by investigating a novel class of post-hoc, diagnostic signals. We propose Dynamic Speculative Decoding Engine (DSDE), a training-free framework built on two primary components: (1) a predictive signal based on the variance of the Kullback-Leibler (KLD) divergence, which diagnoses the generation's regional stability, and (2) an adaptive speculation length cap to mitigate the straggler problem in per-sequence decoding. Experiments demonstrate the potential of using KLD-based stability signals for dynamic adaptation. An algorithm guided by these signals achieves end-to-end latency competitive with leading baselines and exhibits superior robustness across diverse workloads. This robustness is particularly valuable in challenging low-acceptance-rate regimes, where the proposed signal maintains its diagnostic utility. Collectively, these findings validate post-hoc signals as a valuable component for building more robust and intelligent LLM inference systems, and highlight a promising direction for future research on dynamic speculation length adaptation.
- Abstract(参考訳): 投機的復号化は、大規模な言語モデル推論を加速させるが、様々な要求のある大規模サービス環境では、固定された投機長への依存は最適以下である。
本稿では, ポストホック, 診断信号の新たなクラスを探索し, 動的適応のための新しい方向について検討する。
提案する動的投機的復号化エンジン(DSDE)は,(1)KLD(Kulback-Leibler)のばらつきに基づく予測信号で,生成者の局所的安定性を診断し,(2)列ごとの復号化におけるストラグラー問題を緩和する適応的投機長キャップである。
実験では、動的適応にKLDベースの安定性信号を使用する可能性を示す。
これらの信号によって導かれるアルゴリズムは、主要なベースラインと競合するエンドツーエンドのレイテンシを実現し、多様なワークロード間で優れた堅牢性を示す。
このロバスト性は、提案された信号が診断ユーティリティを維持している低受容率の体制に挑戦する上で特に有用である。
これらの結果は,より堅牢でインテリジェントなLLM推論システムを構築する上で,ポストホック信号が有用であることを示すとともに,動的投機長適応に関する今後の研究の方向性を示すものである。
関連論文リスト
- Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。
本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文 参考訳(メタデータ) (2025-07-12T17:11:06Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Spatial Adaptation Layer: Interpretable Domain Adaptation For Biosignal Sensor Array Applications [0.7499722271664147]
生体信号アレイモデルに適用可能な空間適応層(SAL)を提案する。
また,学習可能なベースライン正規化(LBN)を導入し,ベースライン変動を低減する。
2つのHD-sEMGジェスチャ認識データセットでテストした結果、SALとLBNは通常の配列の標準微調整よりも優れていた。
論文 参考訳(メタデータ) (2024-09-12T14:06:12Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Semi-supervised Anomaly Detection via Adaptive Reinforcement Learning-Enabled Method with Causal Inference for Sensor Signals [15.249261198557218]
センサ信号の半教師付き異常検出は、スマート製造におけるシステムの信頼性確保に不可欠である。
本稿では,三重補足型因果強化学習モデル(Tri-CRLAD)を革新的に構築する。
7つのセンサ信号データセットに対する実験結果から、Tri-CRLADは9つの最先端のベースライン法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-11T06:10:05Z) - A Reinforcement Learning based approach for Multi-target Detection in
Massive MIMO radar [12.982044791524494]
本稿では,MMIMO(Multiple input Multiple output)認知レーダ(CR)におけるマルチターゲット検出の問題点について考察する。
本稿では,未知の外乱統計の存在下での認知的マルチターゲット検出のための強化学習(RL)に基づくアルゴリズムを提案する。
定常環境と動的環境の両方において提案したRLアルゴリズムの性能を評価するため, 数値シミュレーションを行った。
論文 参考訳(メタデータ) (2020-05-10T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。