論文の概要: Network-Efficient World Model Token Streaming
- arxiv url: http://arxiv.org/abs/2605.09886v1
- Date: Mon, 11 May 2026 02:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.473213
- Title: Network-Efficient World Model Token Streaming
- Title(参考訳): ネットワーク効率の良いワールドモデルトークンストリーミング
- Authors: Shatadal Mishra, Ahmadreza Moradipari, Nejib Ammar,
- Abstract要約: 本研究では,各288x512フレームを18x32のトークンIDにマッピングする離散世界モデルのネットワーク効率なストリーミングについて検討する。
我々は,コードブック埋め込み空間において,コサイン距離によるデルタ更新を優先するオンラインラベルフリーアルゴリズムを提案する。
結果は、帯域幅対応同期のための実用的なシステム層として、離散トークン状態ストリーミングをサポートする。
- 参考スコア(独自算出の注目度): 2.198430261120653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative driving world models rely on compact latent state representations that must be efficiently transmitted and synchronized across distributed compute and connected vehicles. We study network-efficient streaming of a discrete world model state, where a stride-16 VQ-U-Net tokenizer (codebook size 8,192) maps each 288x512 frame to an 18x32 grid of token IDs (576 tokens/frame), equivalent to 936 bytes/frame under fixed-length coding. We consider a keyframe--delta protocol under strict per-message payload budgets and packet loss, and propose a fully online, label-free algorithm that prioritizes delta updates via cosine distance in codebook embedding space and triggers keyframes adaptively using a Hamming-drift threshold. The adaptive algorithm consistently improves the rate distortion frontier over periodic keyframes at matched bitrates: at 0.024 Mb/s (200-byte budget) dynamic-only embedding distortion drops from 0.0712 to 0.0661 (7.2\%), and at 0.036 Mb/s (400-byte budget) from 0.0427 to 0.0407 (4.8\%). Under 10\% delta packet loss at 200 bytes, dynamic-only distortion is 0.0757 versus 0.0789 for a matched periodic baseline. To connect state fidelity to world model usefulness, we train a lightweight next-token predictor and evaluate perplexity conditioned on streamed receiver states: at 0.024 Mb/s, dynamic-position perplexity improves from 206.0 to 193.1 (6.3\%), and at 0.036 Mb/s from 158.9 to 155.6 (2.1\%). These results support discrete token-state streaming as a practical systems layer for bandwidth-aware synchronization and improved downstream token-dynamics utility under vehicular networking constraints.
- Abstract(参考訳): 生成駆動世界モデルは、分散計算および接続された車両間で効率よく伝達および同期されなければならない、コンパクトな潜在状態表現に依存している。
我々は,288x512フレームのストライド16VQ-U-Netトークンライザ(コードブックサイズ8,192)が,固定長符号化で936バイト/フレームに相当するトークンID(576トークン/フレーム)の18x32グリッドにマップする離散世界モデル状態のネットワーク効率ストリーミングについて検討した。
我々は、厳密なメッセージ単位のペイロード予算とパケットロスに基づくキーフレームデルタプロトコルを検討し、コードブック埋め込み空間におけるコサイン距離によるデルタ更新を優先し、ハミングドリフト閾値を用いてキーフレームを適応的にトリガーする完全オンラインラベルフリーアルゴリズムを提案する。
アダプティブアルゴリズムは、一致したビットレートでの周期的鍵フレームに対するレート歪みフロンティアを一貫して改善する: 0.024 Mb/s (200バイト予算) 動的のみの埋め込み歪みは 0.0712 から 0.0661 (7.2 %) に減少し、0.036 Mb/s (400バイト予算) は 0.0427 から 0.0407 (4.8 %) に減少する。
200バイトでの10\%のデルタパケット損失では、動的のみの歪みは0.0757対0.0789となる。
状態の忠実度を世界モデルの有用性に結びつけるために、軽量な次トーケン予測器をトレーニングし、ストリーム受信状態に条件付けされたパープレキシティを評価する。0.024 Mb/sでは、動的位置のパープレキシティが206.0から193.1 (6.3\%)、0.036 Mb/sは158.9から155.6 (2.1\%)である。
これらの結果は、帯域幅対応同期のための実用的なシステム層として離散トークン状態ストリーミングをサポートし、車載ネットワーク制約下でのダウンストリームトークン-ダイナミックスユーティリティを改善した。
関連論文リスト
- Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference [5.685908474026849]
エッジデバイス上での高品質な自動音声認識(ASR)は、GPUアクセラレーションなしでCPUで完全に動作している間に、精度、レイテンシ、メモリフットプリントを共同で最適化するモデルを必要とする。
我々は,エンコーダデコーダ,トランスデューサ,LDMベースのパラダイムを包含し,バッチ,チャンク,ストリーミング推論モードで評価する,最先端のASRアーキテクチャの体系的研究を行った。
推奨構成であるint4 k-quant変種は、8つの標準ベンチマークで平均8.20%のストリーミングWERを実現し、0.56秒のアルゴリズムレイテンシでCPU上でのリアルタイムよりも快適に動作します。
論文 参考訳(メタデータ) (2026-04-16T00:04:32Z) - SPATE: Spiking-Phase Adaptive Temporal Encoding for Quantum Machine Learning [3.1061484260786014]
本稿では,時間構造を量子特徴量に組み込んだ効果的な符号化機構としてスパイクに基づくデータ表現を用いる。
新しいスパイク駆動時間符号化法が提案され、実値のタブ状特徴を漏れきりのスパイク列車に変換し、スパイク統計を量子回転にマッピングする。
階層化されたクロスバリデーションの下では、SPATEは複数のデータセットにまたがるより強力な表現をもたらす。
論文 参考訳(メタデータ) (2026-04-13T05:41:03Z) - FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding [49.23912975740968]
FluxMemは階層的な2段階の設計を通じて冗長な視覚記憶を適応的に圧縮する。
既存のオンラインビデオベンチマークで、最先端の結果を新たに達成する。
強力なオフライン性能を維持し、MLVUで73.1を達成し、65%のビジュアルトークンを使用する。
論文 参考訳(メタデータ) (2026-03-02T17:16:47Z) - Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [69.79418000132995]
AliTokはトークンシーケンスの依存性構造を変更する新しいアラインド・トークンライザである。
AliTokは177Mパラメータしか持たない標準的なデコーダのみの自己回帰モデルで、ImageNet-256ベンチマークで1.44のgFIDと319.5のISを達成している。
論文 参考訳(メタデータ) (2025-06-05T17:45:10Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。