論文の概要: Inter-Frame Compression for Dynamic Point Cloud Geometry Coding
- arxiv url: http://arxiv.org/abs/2207.12554v1
- Date: Mon, 25 Jul 2022 22:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:29:31.992176
- Title: Inter-Frame Compression for Dynamic Point Cloud Geometry Coding
- Title(参考訳): ダイナミックポイントクラウド幾何符号化のためのフレーム間圧縮
- Authors: Anique Akhtar, Zhu Li, Geert Van der Auwera
- Abstract要約: 本稿では,従来のフレームを用いて,現在のフレームの潜在表現を予測する圧縮手法を提案する。
提案手法は,91%以上のBD-Rate Bjontegaard Delta Rateと62%以上のBD-Rate reductionをV-PCCフレーム内符号化モードに対して達成する。
- 参考スコア(独自算出の注目度): 9.15965133212928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient point cloud compression is essential for applications like virtual
and mixed reality, autonomous driving, and cultural heritage. In this paper, we
propose a deep learning-based inter-frame encoding scheme for dynamic point
cloud geometry compression. We propose a lossy geometry compression scheme that
predicts the latent representation of the current frame using the previous
frame by employing a novel prediction network. Our proposed network utilizes
sparse convolutions with hierarchical multiscale 3D feature learning to encode
the current frame using the previous frame. We employ convolution on target
coordinates to map the latent representation of the previous frame to the
downsampled coordinates of the current frame to predict the current frame's
feature embedding. Our framework transmits the residual of the predicted
features and the actual features by compressing them using a learned
probabilistic factorized entropy model. At the receiver, the decoder
hierarchically reconstructs the current frame by progressively rescaling the
feature embedding. We compared our model to the state-of-the-art Video-based
Point Cloud Compression (V-PCC) and Geometry-based Point Cloud Compression
(G-PCC) schemes standardized by the Moving Picture Experts Group (MPEG). Our
method achieves more than 91% BD-Rate Bjontegaard Delta Rate) reduction against
G-PCC, more than 62% BD-Rate reduction against V-PCC intra-frame encoding mode,
and more than 52% BD-Rate savings against V-PCC P-frame-based inter-frame
encoding mode using HEVC.
- Abstract(参考訳): 仮想と混合現実、自律運転、文化遺産といったアプリケーションには、効率的なポイントクラウド圧縮が不可欠です。
本稿では,動的点雲幾何圧縮のための深層学習に基づくフレーム間符号化方式を提案する。
本稿では,新しい予測ネットワークを用いて,先行フレームを用いて現在フレームの潜時表現を予測できる損失幾何圧縮方式を提案する。
提案するネットワークは,階層的マルチスケール3次元特徴学習とスパース畳み込みを用いて,従来のフレームを用いて現在のフレームを符号化する。
対象座標に畳み込みを用いて、前のフレームの潜在表現を現在のフレームのダウンサンプル座標にマッピングし、現在のフレームの特徴埋め込みを予測する。
本フレームワークは,確率係数化エントロピーモデルを用いて,予測された特徴の残差と実際の特徴を圧縮することによって伝達する。
受信機では、デコーダは、特徴埋め込みを段階的に再スケーリングすることにより、現在のフレームを階層的に再構築する。
我々は,最新のビデオベースのポイントクラウド圧縮(V-PCC)と,移動画像専門家グループ(MPEG)が標準化した幾何学ベースのポイントクラウド圧縮(G-PCC)とを比較した。
提案手法は,G-PCCに対する91%以上のBD-Rate Bjontegaard Delta Rate)削減,V-PCCフレーム内符号化モードに対する62%以上のBD-Rate削減,HEVCを用いたV-PCC P-frameを用いたフレーム間符号化モードに対する52%以上のBD-Rate削減を実現する。
関連論文リスト
- Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer [52.40992954884257]
3D視覚化技術は、私たちがデジタルコンテンツと対話する方法を根本的に変えてきた。
ポイントクラウドの大規模データサイズは、データ圧縮において大きな課題を呈している。
そこで我々はPCACと差別化可能なレンダリングをシームレスに統合するエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T16:12:51Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - SPAC: Sampling-based Progressive Attribute Compression for Dense Point Clouds [51.313922535437726]
本研究では,高密度点雲のエンドツーエンド圧縮法を提案する。
提案手法は,周波数サンプリングモジュール,適応スケール特徴抽出モジュール,幾何支援モジュール,大域的ハイパープライアエントロピーモデルを組み合わせた。
論文 参考訳(メタデータ) (2024-09-16T13:59:43Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Dynamic Point Cloud Geometry Compression Using Multiscale Inter
Conditional Coding [27.013814232906817]
この研究は、Point Cloud Geometry Compression (PCGC)のために開発されたMultiscale Sparse Representation (MSR)フレームワークを拡張し、動的PCGCをサポートする。
先行するポイント・クラウド・ジオメトリ(PCG)フレームの再構築は、段階的にダウンスケール化され、マルチスケールの時間的前兆が生成される。
論文 参考訳(メタデータ) (2023-01-28T11:34:06Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Multiscale Point Cloud Geometry Compression [29.605320327889142]
本稿では,3次元ポイント・クラウド・ジオメトリを階層的に再構築するマルチスケール・ツー・エンド・ラーニング・フレームワークを提案する。
このフレームワークは、ポイントクラウド圧縮と再構成のためのスパース畳み込みベースのオートエンコーダの上に開発されている。
論文 参考訳(メタデータ) (2020-11-07T16:11:16Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。