論文の概要: HPC: Hierarchical Progressive Coding Framework for Volumetric Video
- arxiv url: http://arxiv.org/abs/2407.09026v2
- Date: Sat, 3 Aug 2024 02:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:28:55.169414
- Title: HPC: Hierarchical Progressive Coding Framework for Volumetric Video
- Title(参考訳): HPC: ボリュームビデオのための階層的プログレッシブコーディングフレームワーク
- Authors: Zihan Zheng, Houqiang Zhong, Qiang Hu, Xiaoyun Zhang, Li Song, Ya Zhang, Yanfeng Wang,
- Abstract要約: ニューラルレージアンスフィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションに対して大きな可能性を秘めている。
現在のNeRF圧縮は、ビデオ品質を調整できる柔軟性に欠けており、様々なネットワークやデバイス能力のための単一のモデル内である。
単一モデルを用いて可変性を実現する新しい階層型プログレッシブビデオ符号化フレームワークであるHPCを提案する。
- 参考スコア(独自算出の注目度): 39.403294185116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric video based on Neural Radiance Field (NeRF) holds vast potential for various 3D applications, but its substantial data volume poses significant challenges for compression and transmission. Current NeRF compression lacks the flexibility to adjust video quality and bitrate within a single model for various network and device capacities. To address these issues, we propose HPC, a novel hierarchical progressive volumetric video coding framework achieving variable bitrate using a single model. Specifically, HPC introduces a hierarchical representation with a multi-resolution residual radiance field to reduce temporal redundancy in long-duration sequences while simultaneously generating various levels of detail. Then, we propose an end-to-end progressive learning approach with a multi-rate-distortion loss function to jointly optimize both hierarchical representation and compression. Our HPC trained only once can realize multiple compression levels, while the current methods need to train multiple fixed-bitrate models for different rate-distortion (RD) tradeoffs. Extensive experiments demonstrate that HPC achieves flexible quality levels with variable bitrate by a single model and exhibits competitive RD performance, even outperforming fixed-bitrate models across various datasets.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションにとって大きな可能性を秘めている。
現在のNeRF圧縮は、様々なネットワークとデバイス容量のための単一のモデル内でビデオ品質とビットレートを調整する柔軟性に欠ける。
これらの問題に対処するために,HPCを提案する。HPCは,単一のモデルを用いて可変ビットレートを実現する新しい階層的なプログレッシブボリュームビデオ符号化フレームワークである。
具体的には、HPCは、多分解能残留放射場を持つ階層表現を導入し、様々な詳細レベルを同時に生成しながら、長期化シーケンスにおける時間的冗長性を減少させる。
そこで本稿では,階層的表現と圧縮の両面を協調的に最適化するマルチレート歪み損失関数を用いたエンドツーエンドのプログレッシブ・ラーニング手法を提案する。
我々のHPCは一度だけ複数の圧縮レベルを実現することができるが、現在の手法では異なるレート歪み(RD)トレードオフのために複数の固定ビットレートモデルをトレーニングする必要がある。
大規模な実験により、HPCは可変ビットレートの柔軟な品質レベルを単一モデルで達成し、競争力のあるRD性能を示し、また様々なデータセットで固定ビットレートモデルよりも優れていた。
関連論文リスト
- Point Cloud Geometry Scalable Coding Using a Resolution and Quality-conditioned Latents Probability Estimator [47.792286013837945]
本稿では、ディープラーニングベースのポイントクラウド(PC)コーディングのためのスケーラブルなコーディングソリューションの開発に焦点をあてる。
この3D表現の特徴は、ソフトウェアの他の機能を損なわない柔軟なソリューションの実装を困難にしている。
論文 参考訳(メタデータ) (2025-02-19T20:58:53Z) - GoDe: Gaussians on Demand for Progressive Level of Detail and Scalable Compression [13.616981296093932]
本稿では,ガウスを複数の階層構造に整理する,新しいモデルに依存しない手法を提案する。
この手法は最近の3DGSの圧縮手法と組み合わせて、単一のモデルで複数の圧縮比を瞬時にスケールすることができる。
典型的なデータセットやベンチマークに対するアプローチを検証し、スケーラビリティと適応性の観点から、低歪みと実質的な利得を示す。
論文 参考訳(メタデータ) (2025-01-23T11:05:45Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮率の異なる動的DiT推論フレームワークであるDiffRatio-MoDを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。