論文の概要: Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks
- arxiv url: http://arxiv.org/abs/2602.16760v1
- Date: Wed, 18 Feb 2026 14:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.279411
- Title: Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks
- Title(参考訳): 広域ネットワーク上の大規模言語モデルの投機的復号化を考慮したプライバシ・アウェア・スプリット推論
- Authors: Michael Cunningham,
- Abstract要約: 本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a practical system for privacy-aware large language model (LLM) inference that splits a transformer between a trusted local GPU and an untrusted cloud GPU, communicating only intermediate activations over the network. Our system addresses the unique challenges of autoregressive LLM decoding over high-latency wide-area networks (WANs), contributing: (1) an asymmetric layer split where embedding and unembedding layers remain local, ensuring raw tokens never leave the trusted device; (2) the first application of lookahead decoding to split inference over WANs, amortizing network round-trip latency across multiple tokens per iteration; (3) an empirical inversion attack evaluation showing that split depth provides a tunable privacy-performance tradeoff -- an attacker can recover ~59%% of tokens at a 2-layer split but only ~35%% at an 8-layer split, with minimal throughput impact; (4) ablation experiments showing that n-gram speculation accepts 1.2-1.3 tokens per decoding step on average (peak of 7 observed on code), with acceptance rates consistent across model scales; (5) formal verification that lookahead decoding produces token-identical output to sequential decoding under greedy argmax, with zero quality degradation; and (6) scaling validation on Mistral NeMo 12B (40 layers), demonstrating that the system generalizes to larger models with only 4.9 GB local VRAM and matching 7B throughput. Evaluated on Mistral 7B and NeMo 12B over a ~80ms WAN link, our system achieves 8.7-9.3 tok/s (7B) and 7.8-8.7 tok/s (12B) with lookahead decoding, with an RTT decomposition model (validated at <6.2%% cross-validation error) projecting 15-19 tok/s at 20ms RTT.
- Abstract(参考訳): 本稿では,信頼されたローカルGPUと信頼できないクラウドGPUのトランスフォーマーを分割し,ネットワーク上の中間的アクティベーションのみを通信する,プライバシを意識した大規模言語モデル(LLM)の実用的なシステムを提案する。
1) 埋込層と埋込層が局所的のままである非対称層分割,(2) 信頼されたデバイスを離れないことを保証するための生のトークンの最初のアプリケーション,(2) WANによる推論へのルックアヘッド復号化,イテレーション毎に複数のトークンをまたいだネットワークのラウンドトリップ遅延の補正,(3) 分割深度が調整可能なプライバシパフォーマンストレードオフを提供することを示す実証的逆転攻撃評価 -- 攻撃者は8層分割でトークンの約59%を回復できるが,最小のスループットを持つ8層分割でわずか35%に留まる。
80ms WANリンク上でのMistral 7BとNeMo 12Bの評価を行い,20ms RTTで15-19 tok/sのRTT分解モデルを用いて8.7-9.3 tok/s (7B)と7.8-8.7 tok/s (12B)を達成した。
関連論文リスト
- STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (2026-01-14T17:58:24Z) - Incentivised Orchestrated Training Architecture (IOTA): A Technical Primer for Release [0.0]
IOTAはSN9のかつて孤立していたライバルを単一の協力ユニットに変換する。
検証者は各採掘者の貢献を測り、トークンの排出量を比例的に割り当てる。
モデルブートネックを用いて、アクティベーションの通信帯域幅を最大128倍に削減する。
論文 参考訳(メタデータ) (2025-07-16T15:16:21Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Benchmarking Local Robustness of High-Accuracy Binary Neural Networks
for Enhanced Traffic Sign Recognition [0.0]
本稿では,最先端の検証ツールに挑戦するレイヤを特徴とするベンチマーク問題を紹介する。
検証問題の難しさは、多数のネットワークパラメータによって与えられる。
論文 参考訳(メタデータ) (2023-09-25T01:17:14Z) - Semi-supervised multiscale dual-encoding method for faulty traffic data
detection [0.0]
本稿では, 変分オートエンコーダ(VAE)を用いた半教師付き半教師方式を提案する。
実験の結果,2つの符号化方式とアテンションモジュールを組み合わせたアーキテクチャが,他の符号化方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-12-27T20:07:52Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - A Unified Model for Multi-class Anomaly Detection [33.534990722449066]
UniADは、統一されたフレームワークで複数のクラスに対して異常検出を行う。
MVTec-ADおよびCIFAR-10データセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2022-06-08T06:05:09Z) - Enabling certification of verification-agnostic networks via
memory-efficient semidefinite programming [97.40955121478716]
本稿では,ネットワークアクティベーションの総数にのみ線形なメモリを必要とする一階二重SDPアルゴリズムを提案する。
L-inf の精度は 1% から 88% ,6% から 40% に改善した。
また,変分オートエンコーダの復号器に対する2次安定性仕様の厳密な検証を行った。
論文 参考訳(メタデータ) (2020-10-22T12:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。