論文の概要: VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression
- arxiv url: http://arxiv.org/abs/2412.11362v1
- Date: Mon, 16 Dec 2024 01:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:50:00.146033
- Title: VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression
- Title(参考訳): VRVVC: 可変レートNeRFベースのボリュームビデオ圧縮
- Authors: Qiang Hu, Houqiang Zhong, Zihan Zheng, Xiaoyun Zhang, Zhengxue Cheng, Li Song, Guangtao Zhai, Yanfeng Wang,
- Abstract要約: NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
- 参考スコア(独自算出の注目度): 59.14355576912495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Radiance Field (NeRF)-based volumetric video has revolutionized visual media by delivering photorealistic Free-Viewpoint Video (FVV) experiences that provide audiences with unprecedented immersion and interactivity. However, the substantial data volumes pose significant challenges for storage and transmission. Existing solutions typically optimize NeRF representation and compression independently or focus on a single fixed rate-distortion (RD) tradeoff. In this paper, we propose VRVVC, a novel end-to-end joint optimization variable-rate framework for volumetric video compression that achieves variable bitrates using a single model while maintaining superior RD performance. Specifically, VRVVC introduces a compact tri-plane implicit residual representation for inter-frame modeling of long-duration dynamic scenes, effectively reducing temporal redundancy. We further propose a variable-rate residual representation compression scheme that leverages a learnable quantization and a tiny MLP-based entropy model. This approach enables variable bitrates through the utilization of predefined Lagrange multipliers to manage the quantization error of all latent representations. Finally, we present an end-to-end progressive training strategy combined with a multi-rate-distortion loss function to optimize the entire framework. Extensive experiments demonstrate that VRVVC achieves a wide range of variable bitrates within a single model and surpasses the RD performance of existing methods across various datasets.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)ベースのボリューム・ビデオは、フォトリアリスティック・フリー・ビューポイント・ビデオ(FVV)体験を提供し、観客に前例のない没入感と対話性を提供することで、視覚メディアに革命をもたらした。
しかし、大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
既存のソリューションは通常、NeRF表現と圧縮を独立に最適化するか、単一の固定レート歪み(RD)トレードオフに集中する。
本稿では,単一モデルを用いた可変ビットレートを実現するとともに,優れたRD性能を維持しつつ,可変ビットレートを実現する,ボリュームビデオ圧縮のための新しいエンドツーエンド共同最適化可変レートフレームワークであるVRVVCを提案する。
特にVRVVCは、長周期動的シーンのフレーム間モデリングのためのコンパクトな三面体残差表現を導入し、時間的冗長性を効果的に低減する。
さらに,学習可能な量子化とMDPに基づく小さなエントロピーモデルを活用する可変レート残差表現圧縮方式を提案する。
このアプローチは、事前定義されたラグランジュ乗算器を利用して、すべての潜在表現の量子化誤差を管理する可変ビットレートを可能にする。
最後に、フレームワーク全体を最適化するために、エンドツーエンドのプログレッシブトレーニング戦略とマルチレート歪み損失関数を組み合わせる。
大規模な実験により、VRVVCは単一のモデル内で幅広い可変ビットレートを達成し、様々なデータセットにまたがる既存のメソッドのRD性能を上回ることが示されている。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - 4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video [56.04182926886754]
3D Gaussian Splatting (3DGS)は、フォトリアリスティック・フリー・ビューポイント・ビデオ(FVV)体験を可能にする大きな可能性を秘めている。
既存の方法は、動的3DGS表現と圧縮を別々に扱うのが一般的である。
本稿では,FVVのRD性能を向上しつつ,ストレージサイズを大幅に削減するレート対応4Dガウス圧縮フレームワークである4DGCを提案する。
論文 参考訳(メタデータ) (2025-03-24T08:05:27Z) - UAR-NVC: A Unified AutoRegressive Framework for Memory-Efficient Neural Video Compression [29.174318150967405]
Inlicit Neural Representation (INRs)は、ビデオをニューラルネットワークとして表現することで、ビデオ圧縮において大きな可能性を証明している。
本稿では、自己回帰(AR)の観点からのINRモデルの新たな理解と、メモリ効率の高いニューラルビデオ圧縮(UAR-NVC)のための統一自己回帰フレームワークを提案する。
UAR-NVCは、タイムラインベースとINRベースのニューラルビデオ圧縮を統合自己回帰パラダイムの下で統合する。
論文 参考訳(メタデータ) (2025-03-04T15:54:57Z) - HPC: Hierarchical Progressive Coding Framework for Volumetric Video [39.403294185116]
ニューラルレージアンスフィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションに対して大きな可能性を秘めている。
現在のNeRF圧縮は、ビデオ品質を調整できる柔軟性に欠けており、様々なネットワークやデバイス能力のための単一のモデル内である。
単一モデルを用いて可変性を実現する新しい階層型プログレッシブビデオ符号化フレームワークであるHPCを提案する。
論文 参考訳(メタデータ) (2024-07-12T06:34:24Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Neural Residual Radiance Fields for Streamably Free-Viewpoint Videos [69.22032459870242]
本稿では,Residual Radiance Field(ReRF)という新しい手法を提案する。
このような戦略は品質を犠牲にすることなく大きな動きを扱えることを示す。
ReRFに基づいて,3桁の圧縮率を達成する特別なFVVを設計し,ダイナミックシーンの長期FVVのオンラインストリーミングをサポートするReRFプレーヤを提供する。
論文 参考訳(メタデータ) (2023-04-10T08:36:00Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。