論文の概要: Resi-VidTok: An Efficient and Decomposed Progressive Tokenization Framework for Ultra-Low-Rate and Lightweight Video Transmission
- arxiv url: http://arxiv.org/abs/2510.25002v1
- Date: Tue, 28 Oct 2025 22:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.806141
- Title: Resi-VidTok: An Efficient and Decomposed Progressive Tokenization Framework for Ultra-Low-Rate and Lightweight Video Transmission
- Title(参考訳): Resi-VidTok:超低レート・軽量ビデオ伝送のための効率的かつ分解型プログレッシブトークン化フレームワーク
- Authors: Zhenyu Liu, Yi Ma, Rahim Tafazolli, Zhi Ding,
- Abstract要約: Resi-VidTokは、超低レートで軽量なビデオ伝送のためのレジリエント・トークン化対応フレームワークである。
重要なコントリビューションは、差分時間トークンコーディングを統合するビデオのためのレジリエントな1Dトークン化パイプラインである。
その結果, チャネル帯域幅比 (CBR) が0.0004, 30fps以上のリアルタイム再構成では, 頑健な視覚的・意味的整合性を示した。
- 参考スコア(独自算出の注目度): 35.3961976297755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time transmission of video over wireless networks remains highly challenging, even with advanced deep models, particularly under severe channel conditions such as limited bandwidth and weak connectivity. In this paper, we propose Resi-VidTok, a Resilient Tokenization-Enabled framework designed for ultra-low-rate and lightweight video transmission that delivers strong robustness while preserving perceptual and semantic fidelity on commodity digital hardware. By reorganizing spatio--temporal content into a discrete, importance-ordered token stream composed of key tokens and refinement tokens, Resi-VidTok enables progressive encoding, prefix-decodable reconstruction, and graceful quality degradation under constrained channels. A key contribution is a resilient 1D tokenization pipeline for video that integrates differential temporal token coding, explicitly supporting reliable recovery from incomplete token sets using a single shared framewise decoder--without auxiliary temporal extractors or heavy generative models. Furthermore, stride-controlled frame sparsification combined with a lightweight decoder-side interpolator reduces transmission load while maintaining motion continuity. Finally, a channel-adaptive source--channel coding and modulation scheme dynamically allocates rate and protection according to token importance and channel condition, yielding stable quality across adverse SNRs. Evaluation results indicate robust visual and semantic consistency at channel bandwidth ratios (CBR) as low as 0.0004 and real-time reconstruction at over 30 fps, demonstrating the practicality of Resi-VidTok for energy-efficient, latency-sensitive, and reliability-critical wireless applications.
- Abstract(参考訳): 無線ネットワーク上のビデオのリアルタイム伝送は、特に帯域幅の制限や接続性の弱いといった厳しい状況下では、高度なディープモデルであっても、非常に困難である。
本稿では,デジタルハードウェア上での知覚的・意味的忠実性を保ちながら,強靭性を実現する,超低レートで軽量なビデオ伝送を実現するためのレジリエントなトークン化対応フレームワークResi-VidTokを提案する。
Resi-VidTokは、時空間的コンテンツをキートークンと精細トークンからなる離散的かつ重要順序のトークンストリームに再構成することで、プログレッシブエンコーディング、プレフィックスデコジュアブルな再構築、制約されたチャネル下での優雅な品質劣化を可能にする。
重要なコントリビューションは、ビデオ用レジリエントな1Dトークン化パイプラインであり、差分時間トークン符号化を統合し、単一のフレームワイドデコーダを用いて不完全なトークンセットからの信頼性の高いリカバリを明示的にサポートする。
さらに、ストライド制御フレームスカラー化と軽量デコーダ側補間器を組み合わせることで、動作継続性を維持しながら伝送負荷を低減する。
最後に、チャネル適応型ソースチャネル符号化および変調方式は、トークンの重要度やチャネル条件に応じて動的にレートと保護を割り当て、悪質なSNR間で安定した品質をもたらす。
評価結果によると、チャネル帯域比(CBR)が0.0004以下で、30fps以上のリアルタイム再構成が可能であり、エネルギー効率、遅延感度、信頼性クリティカルな無線アプリケーションに対するResi-VidTokの実用性を示している。
関連論文リスト
- DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - SIEDD: Shared-Implicit Encoder with Discrete Decoders [36.705337163276255]
Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
論文 参考訳(メタデータ) (2025-06-29T19:39:43Z) - FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - Deep Learning-Based Image Compression for Wireless Communications: Impacts on Reliability,Throughput, and Latency [41.77014570882275]
無線通信では、効率的な画像伝送は信頼性、スループット、レイテンシのバランスをとる必要がある。
ハイパープライアモデルとVQGAN(Vector Quantized Generative Adversarial Network)の2つの最先端学習モデルについて検討する。
両モデルのプログレッシブバージョンを提案し、不完全なチャネル条件下で部分的な画像伝送と復号を可能にする。
論文 参考訳(メタデータ) (2024-11-16T01:14:55Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Structured Sparsity Learning for Efficient Video Super-Resolution [99.1632164448236]
我々は、ビデオ超解像(VSR)モデルの特性に応じて、構造化スパシティ学習(SSL)と呼ばれる構造化プルーニング手法を開発する。
SSLでは,残差ブロック,リカレントネットワーク,アップサンプリングネットワークなど,VSRモデルのいくつかの重要なコンポーネントに対するプルーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-06-15T17:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。