論文の概要: WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference
- arxiv url: http://arxiv.org/abs/2604.17701v1
- Date: Mon, 20 Apr 2026 01:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.647298
- Title: WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference
- Title(参考訳): WISV:デバイスエッジLPM推論における分散投機復号化のための無線インフォームドセマンティック検証
- Authors: Zixuan Liu, Zhiyong Chen, Nan Xue, Shengkang Chen, Jiangchao Yao, Meixia Tao, Wenjun Zhang,
- Abstract要約: WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
- 参考スコア(独自算出の注目度): 56.297697169678095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While distributed device-edge speculative decoding enhances resource utilization across heterogeneous nodes, its performance is often bottlenecked by conventional token-level verification strategies. Such rigid alignment leads to excessive rejections, significantly diminishing the accepted sequence length and increasing interaction rounds under fluctuating wireless conditions. In this paper, we propose WISV (Wireless-Informed Semantic Verification), a novel distributed speculative decoding framework that goes beyond strict token-level matching via a channel-aware semantic acceptance policy. WISV integrates a lightweight decision head into the edge-side target LLM to dynamically evaluate speculative tokens by synthesizing high-dimensional hidden representations with instantaneous channel state information (CSI). To optimize the trade-off between verification fidelity and communication overhead, we further design two tailored communication protocols: full-hidden upload and mismatch-first selective-hidden upload. Extensive simulations using a 1B drafter and an 8B target model demonstrate that WISV achieves up to a 60.8% increase in accepted length, a 37.3% reduction in interaction rounds, and a 31.4% improvement in end-to-end latency compared to vanilla speculative decoding across tested settings, while maintaining a negligible task accuracy drop (<1%). Finally, we validate WISV on a hardware testbed comprising an NVIDIA Jetson AGX Orin and an A40-equipped server, confirming its real-world efficacy in accelerating edge-deployed LLM inference.
- Abstract(参考訳): 分散デバイスエッジの投機的復号化は異種ノード間のリソース利用を促進するが、その性能は従来のトークンレベルの検証戦略によってボトルネックとなることが多い。
このような厳密なアライメントは過剰な拒絶を招き、受信シーケンスの長さを著しく減少させ、変動する無線条件下での相互作用ラウンドを増大させる。
本稿では,Wireless-Informed Semantic Verification(Wireless-Informed Semantic Verification)を提案する。
WISVは、高次元隠れ表現を瞬時チャネル状態情報(CSI)で合成することにより、軽量な決定ヘッドをエッジ側目標LDMに統合し、投機トークンを動的に評価する。
検証忠実度と通信オーバヘッドのトレードオフを最適化するため,本研究では,フルハイドアップロードとミスマッチファーストの選択的ハイドアップという,2つの通信プロトコルを設計する。
1Bドラフトと8Bターゲットモデルを用いた大規模なシミュレーションでは、WISVは許容される長さが最大60.8%増加し、37.3%のラウンドが減少し、テスト中のバニラ投機的復号化よりも31.4%のレイテンシが向上し、無視可能なタスク精度の低下(1%)を維持した。
最後に,NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
関連論文リスト
- Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z) - ZK-SenseLM: Verifiable Large-Model Wireless Sensing with Selective Abstention and Zero-Knowledge Attestation [0.0]
ZK-SenseLMはセキュアで監査可能な無線センシングフレームワークである。
Wi-Fiチャネル状態情報のための大モデルエンコーダと、ポリシ基底決定層と、推論のゼロ知識証明とをペアリングする。
論文 参考訳(メタデータ) (2025-10-29T16:43:07Z) - CoSense-LLM: Semantics at the Edge with Cost- and Uncertainty-Aware Cloud-Edge Cooperation [0.0]
CoSense-LLMは、連続したマルチモーダルセンサストリームをコンパクトなセマンティックトークンに変換するエッジファーストフレームワークである。
システムは、ページ化またはストリーミングKVキャッシュ、Flashスタイルのカーネル、投機的復号化、量子化されたLoRAアダプタなど、モダンなサービス最適化で動作する。
論文 参考訳(メタデータ) (2025-10-22T15:16:56Z) - Adaptive Learning for IRS-Assisted Wireless Networks: Securing Opportunistic Communications Against Byzantine Eavesdroppers [7.256056777973974]
ビザンチン耐性スペクトルセンシングとセキュアインテリジェント反射面(IRS)のための共同学習フレームワークを提案する。
本研究では,局所曲率の緩やかな速度で,予測更新と証明可能なサブ線形収束を提供する拡張ラグランジアン交互化アルゴリズムを開発した。
多様なネットワーク条件のシミュレーションでは、敵攻撃時の固定偽アラームレートの検出確率が高く、正直なユーザに対する総和MSEの大幅な削減、盗聴信号の強い抑制、高速収束が示される。
論文 参考訳(メタデータ) (2025-08-11T17:28:25Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。