論文の概要: Robust Multiple Description Neural Video Codec with Masked Transformer for Dynamic and Noisy Networks
- arxiv url: http://arxiv.org/abs/2412.07922v1
- Date: Tue, 10 Dec 2024 21:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:58.353446
- Title: Robust Multiple Description Neural Video Codec with Masked Transformer for Dynamic and Noisy Networks
- Title(参考訳): マスク変圧器を用いた動的・雑音ネットワーク用ロバスト多重記述型ニューラルビデオコーデック
- Authors: Xinyue Hu, Wei Ye, Jiaxiang Tang, Eman Ramadan, Zhi-Li Zhang,
- Abstract要約: 多重記述符号化 (MDC) は有望な誤り耐性のあるソースコード符号化法である。
従来のMDCビデオコーデックは、面倒なアーキテクチャ、スケーラビリティの低下、損失耐性の制限、圧縮効率の低下に悩まされている。
我々は、マスク付きトークン予測のために訓練された双方向トランスフォーマーが、MDCビデオの設計を大幅に単純化できることを示す新しいMDCビデオであるNeuralMDCを提案する。
- 参考スコア(独自算出の注目度): 19.77771020475519
- License:
- Abstract: Multiple Description Coding (MDC) is a promising error-resilient source coding method that is particularly suitable for dynamic networks with multiple (yet noisy and unreliable) paths. However, conventional MDC video codecs suffer from cumbersome architectures, poor scalability, limited loss resilience, and lower compression efficiency. As a result, MDC has never been widely adopted. Inspired by the potential of neural video codecs, this paper rethinks MDC design. We propose a novel MDC video codec, NeuralMDC, demonstrating how bidirectional transformers trained for masked token prediction can vastly simplify the design of MDC video codec. To compress a video, NeuralMDC starts by tokenizing each frame into its latent representation and then splits the latent tokens to create multiple descriptions containing correlated information. Instead of using motion prediction and warping operations, NeuralMDC trains a bidirectional masked transformer to model the spatial-temporal dependencies of latent representations and predict the distribution of the current representation based on the past. The predicted distribution is used to independently entropy code each description and infer any potentially lost tokens. Extensive experiments demonstrate NeuralMDC achieves state-of-the-art loss resilience with minimal sacrifices in compression efficiency, significantly outperforming the best existing residual-coding-based error-resilient neural video codec.
- Abstract(参考訳): 多重記述符号化(Multiple Description Coding、MDC)は、複数の(ノイズや信頼性の低い)パスを持つ動的ネットワークに特に適する、有望なエラー耐性のあるソースコード符号化手法である。
しかし、従来のMDCビデオコーデックは、面倒なアーキテクチャ、スケーラビリティの低下、損失耐性の制限、圧縮効率の低下に悩まされている。
その結果、MDCは広く採用されることはなかった。
本稿では, ニューラルビデオコーデックの可能性に触発され, MDC設計を再考する。
本稿では,新しいMDCビデオコーデックであるNeuralMDCを提案し,マスク付きトークン予測のために訓練された双方向トランスフォーマーがMDCビデオコーデックの設計を大幅に単純化することを示した。
ビデオを圧縮するために、NeuralMDCはまず各フレームを潜在表現にトークン化し、次に潜在トークンを分割して関連情報を含む複数の記述を生成する。
動作予測やワープ操作の代わりに、NeuralMDCは双方向のマスク付きトランスフォーマーをトレーニングし、潜在表現の時空間依存性をモデル化し、過去に基づいて現在の表現の分布を予測する。
予測された分布は、それぞれの記述を独立にエントロピーし、潜在的に失われたトークンを推測するために使用される。
大規模な実験により、NeuralMDCは圧縮効率の犠牲を最小限に抑えて最先端のロスレジリエンスを達成し、既存の残留符号化ベースのエラー耐性ニューラルビデオコーデックよりも大幅に向上した。
関連論文リスト
- Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文 参考訳(メタデータ) (2023-09-20T21:59:23Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Deep Optimized Multiple Description Image Coding via Scalar Quantization
Learning [37.00592782976494]
多重記述(MD)圧縮損失を最小限に抑えることで最適化された深層多重記述符号化(MDC)フレームワークを提案する。
これら2種類のネットワークからなる自動エンコーダネットワークを対称パラメータ共有構造として設計する。
我々のフレームワークは、いくつかの一般的なデータセットでテストした場合、画像符号化効率に関する最先端のMDCアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-01-12T05:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。