論文の概要: Conformal Sparsification for Bandwidth-Efficient Edge-Cloud Speculative Decoding
- arxiv url: http://arxiv.org/abs/2510.09942v1
- Date: Sat, 11 Oct 2025 00:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.706157
- Title: Conformal Sparsification for Bandwidth-Efficient Edge-Cloud Speculative Decoding
- Title(参考訳): 帯域幅効率の良いエッジクラウド投機デコードのためのコンフォーマルスカラー化
- Authors: Payel Bhattacharjee, Fengwei Tian, Meiyu Zhong, Guangyi Zhang, Osvaldo Simeone, Ravi Tandon,
- Abstract要約: エッジクラウド投機復号(SD)は、クラウドベースの大規模言語モデル(LLM)をエッジに持つことにより、推論を加速する。
中心的なボトルネックはエッジクラウドリンクの限られた帯域幅であり、ドラフトトークン分布の効率的な圧縮を必要とする。
Sparse Quantize-and-Sample SD フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.64364475310812
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Edge-cloud speculative decoding (SD) accelerates inference by having a cloud-based large language model (LLM) that verifies draft tokens generated by a resource-constrained small language model (SLM) at the edge. A central bottleneck is the limited bandwidth of the edge-cloud link, which necessitates efficient compression of draft token distributions. We first derive an information-theoretic bound that decomposes the token rejection rate into contributions from SLM-LLM distribution mismatch and from quantization distortion. Guided by this analysis, we propose the Sparse Quantize-and-Sample SD (SQS-SD) framework, which exploits distributional sparsity through structured sparsification and lattice-based quantization. Within this framework, K-SQS applies fixed top-K truncation, while C-SQS adaptively adjusts the retained token set via online conformal prediction to ensure bounded deviation from the dense distribution. Empirical results confirm that both approaches improve end-to-end latency and rejection rates in complimentary operating regimes.
- Abstract(参考訳): エッジクラウド投機的デコーディング(SD)は、リソース制約された小さな言語モデル(SLM)によって生成されたドラフトトークンをエッジで検証するクラウドベースの大規模言語モデル(LLM)を持つことで、推論を加速する。
中心的なボトルネックはエッジクラウドリンクの限られた帯域幅であり、ドラフトトークン分布の効率的な圧縮を必要とする。
まず、トークン拒絶率をSLM-LLM分布ミスマッチと量子化歪みから寄与する情報理論境界を導出する。
本稿では,SQS-SD(Sparse Quantize-and-Sample SD)フレームワークを提案する。
このフレームワーク内では、K-SQSは固定トップKトランケーションを適用し、C-SQSは、密分布からの有界偏差を保証するために、オンライン共形予測によって保持トークンセットを適応的に調整する。
実証的な結果から,両アプローチが補完的オペレーティングシステムにおけるエンドツーエンドのレイテンシと拒絶率を改善することが確認された。
関連論文リスト
- Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Generalized Incremental Learning under Concept Drift across Evolving Data Streams [32.62505920071586]
実世界のデータストリームは、概念の漂流を特徴とする固有の非定常性を示し、適応学習システムにとって重要な課題となっている。
我々は,GILCD (Generalized Incremental Learning under Concept Drift) を定式化し,オープン環境ストリーミング環境における分布空間とラベル空間の連成進化を特徴付ける。
本稿では,新しいプロトタイプをベース表現と融合させ,新しいクラス識別を安定的に実現するCalibrated Source-Free Adaptation (CSFA)を提案する。
論文 参考訳(メタデータ) (2025-06-06T04:36:24Z) - WQLCP: Weighted Adaptive Conformal Prediction for Robust Uncertainty Quantification Under Distribution Shifts [4.192712667327956]
本稿では,変分オートエンコーダ(VAE)から得られた復元損失を,スコア関数をスケールする不確実性指標として紹介する。
重み付き交換可能性の概念を取り入れてRL SCPを改良した量子損失スケールコンフォーマル予測(WQLCP)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:15Z) - DiffCom: Decoupled Sparse Priors Guided Diffusion Compression for Point Clouds [54.96190721255167]
ロスシー圧縮は、ポイントクラウドをストレージの潜在ポイントに変換するためのオートエンコーダに依存している。
本稿では,特に低レベルにおいて高い復元品質を実現するための拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-21T05:41:35Z) - Flexible Coded Distributed Convolution Computing for Enhanced Straggler Resilience and Numerical Stability in Distributed CNNs [32.30002131843406]
本稿では,Flexible Coded Distributed Convolution Computingフレームワークを紹介する。
分散CNNにおけるストラグラーのレジリエンスと数値安定性を向上させる。
実験的な結果は、様々なCNNアーキテクチャにおける計算効率、ストラグラーレジリエンス、スケーラビリティにおけるフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-03T14:05:29Z) - Rectified Diffusion Guidance for Conditional Generation [94.83538269086613]
CFGの背後にある理論を再検討し、不適切な組合せ係数(textiti.e.)が生成分布を期待的にシフトさせることを厳密に確認する。
提案手法は, 強みを考慮すれば, textbftextitform ソリューションが有効であることを示す。
実世界のデータに関する実証的な証拠は、我々の設計と既存の最先端拡散モデルとの整合性を実証している。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Rethinking Clustered Federated Learning in NOMA Enhanced Wireless
Networks [60.09912912343705]
本研究では,新しいクラスタ化フェデレーション学習(CFL)アプローチと,非独立かつ同一に分散した(非IID)データセットを統合することのメリットについて検討する。
データ分布における非IIDの度合いを測定する一般化ギャップの詳細な理論的解析について述べる。
非IID条件によって引き起こされる課題に対処する解決策は、特性の分析によって提案される。
論文 参考訳(メタデータ) (2024-03-05T17:49:09Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Deep Capsule Encoder-Decoder Network for Surrogate Modeling and
Uncertainty Quantification [0.0]
提案するフレームワークは,Capsule Network (CapsNet) アーキテクチャを画像から画像への回帰エンコーダ・デコーダネットワークに適応させることにより開発されている。
性能評価の結果,提案手法は正確で効率的で頑健であることが示唆された。
論文 参考訳(メタデータ) (2022-01-19T17:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。