論文の概要: Inter-Frame Compression for Dynamic Point Cloud Geometry Coding
- arxiv url: http://arxiv.org/abs/2207.12554v2
- Date: Mon, 2 Sep 2024 22:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 23:16:54.099747
- Title: Inter-Frame Compression for Dynamic Point Cloud Geometry Coding
- Title(参考訳): ダイナミックポイントクラウド幾何符号化のためのフレーム間圧縮
- Authors: Anique Akhtar, Zhu Li, Geert Van der Auwera,
- Abstract要約: 本稿では,従来のフレームを用いて,現在のフレームの潜在表現を予測する圧縮手法を提案する。
提案するネットワークは,階層型マルチスケール3次元特徴学習による畳み込みを利用して,現在のフレームを符号化する。
提案手法は, G-PCCv20 Octreeに対して88%以上のBD-Rate (Bjontegaard Delta Rate)削減を実現する。
- 参考スコア(独自算出の注目度): 14.79613731546357
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient point cloud compression is essential for applications like virtual and mixed reality, autonomous driving, and cultural heritage. This paper proposes a deep learning-based inter-frame encoding scheme for dynamic point cloud geometry compression. We propose a lossy geometry compression scheme that predicts the latent representation of the current frame using the previous frame by employing a novel feature space inter-prediction network. The proposed network utilizes sparse convolutions with hierarchical multiscale 3D feature learning to encode the current frame using the previous frame. The proposed method introduces a novel predictor network for motion compensation in the feature domain to map the latent representation of the previous frame to the coordinates of the current frame to predict the current frame's feature embedding. The framework transmits the residual of the predicted features and the actual features by compressing them using a learned probabilistic factorized entropy model. At the receiver, the decoder hierarchically reconstructs the current frame by progressively rescaling the feature embedding. The proposed framework is compared to the state-of-the-art Video-based Point Cloud Compression (V-PCC) and Geometry-based Point Cloud Compression (G-PCC) schemes standardized by the Moving Picture Experts Group (MPEG). The proposed method achieves more than 88% BD-Rate (Bjontegaard Delta Rate) reduction against G-PCCv20 Octree, more than 56% BD-Rate savings against G-PCCv20 Trisoup, more than 62% BD-Rate reduction against V-PCC intra-frame encoding mode, and more than 52% BD-Rate savings against V-PCC P-frame-based inter-frame encoding mode using HEVC. These significant performance gains are cross-checked and verified in the MPEG working group.
- Abstract(参考訳): 仮想と混合現実、自律運転、文化遺産といったアプリケーションには、効率的なポイントクラウド圧縮が不可欠です。
本稿では,動的点雲幾何圧縮のための深層学習に基づくフレーム間符号化方式を提案する。
本稿では,新しい特徴空間間予測ネットワークを用いて,現在のフレームの潜在表現を前フレームで予測する,損失のある幾何学的圧縮手法を提案する。
提案するネットワークは,階層型マルチスケール3次元特徴学習によるスパース畳み込みを利用して,前のフレームを用いて現在のフレームを符号化する。
提案手法は,前フレームの潜在表現を現在のフレームの座標にマッピングし,現在のフレームの特徴埋め込みを予測するための,特徴領域における動き補償のための新しい予測器ネットワークを提案する。
このフレームワークは、予測された特徴と実際の特徴の残余を、学習された確率的因子化エントロピーモデルを用いて圧縮することによって伝達する。
受信機では、デコーダは、特徴埋め込みを段階的に再スケーリングすることにより、現在のフレームを階層的に再構築する。
提案手法は,移動画像専門家グループ (MPEG) が標準化した最新技術であるビデオベースのポイントクラウド圧縮 (V-PCC) と幾何学ベースのポイントクラウド圧縮 (G-PCC) とを比較した。
提案手法は,G-PCCv20Octreeに対する88%以上のBD-Rate(Bjontegaard Delta Rate)の削減,G-PCCv20 Trisoupに対する56%以上のBD-Rateの削減,V-PCCフレーム内符号化モードに対する62%以上のBD-Rateの削減,HEVCを用いたV-PCC Pフレームベースのフレーム間符号化モードに対する52%以上のBD-Rateの削減を実現する。
これらの重要なパフォーマンス向上は、MPEGワーキンググループでクロスチェックされ、検証されます。
関連論文リスト
- Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer [52.40992954884257]
3D視覚化技術は、私たちがデジタルコンテンツと対話する方法を根本的に変えてきた。
ポイントクラウドの大規模データサイズは、データ圧縮において大きな課題を呈している。
そこで我々はPCACと差別化可能なレンダリングをシームレスに統合するエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T16:12:51Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - SPAC: Sampling-based Progressive Attribute Compression for Dense Point Clouds [51.313922535437726]
本研究では,高密度点雲のエンドツーエンド圧縮法を提案する。
提案手法は,周波数サンプリングモジュール,適応スケール特徴抽出モジュール,幾何支援モジュール,大域的ハイパープライアエントロピーモデルを組み合わせた。
論文 参考訳(メタデータ) (2024-09-16T13:59:43Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Dynamic Point Cloud Geometry Compression Using Multiscale Inter
Conditional Coding [27.013814232906817]
この研究は、Point Cloud Geometry Compression (PCGC)のために開発されたMultiscale Sparse Representation (MSR)フレームワークを拡張し、動的PCGCをサポートする。
先行するポイント・クラウド・ジオメトリ(PCG)フレームの再構築は、段階的にダウンスケール化され、マルチスケールの時間的前兆が生成される。
論文 参考訳(メタデータ) (2023-01-28T11:34:06Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Multiscale Point Cloud Geometry Compression [29.605320327889142]
本稿では,3次元ポイント・クラウド・ジオメトリを階層的に再構築するマルチスケール・ツー・エンド・ラーニング・フレームワークを提案する。
このフレームワークは、ポイントクラウド圧縮と再構成のためのスパース畳み込みベースのオートエンコーダの上に開発されている。
論文 参考訳(メタデータ) (2020-11-07T16:11:16Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。