論文の概要: VVRec: Reconstruction Attacks on DL-based Volumetric Video Upstreaming via Latent Diffusion Model with Gamma Distribution
- arxiv url: http://arxiv.org/abs/2502.17880v1
- Date: Tue, 25 Feb 2025 06:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:46.689932
- Title: VVRec: Reconstruction Attacks on DL-based Volumetric Video Upstreaming via Latent Diffusion Model with Gamma Distribution
- Title(参考訳): VVRec:ガンマ分布を伴う潜在拡散モデルによるDLベースボリュームビデオアップストリームの再構成攻撃
- Authors: Rui Lu, Bihai Zhang, Dan Wang,
- Abstract要約: 本稿では,DLをベースとしたVVRecの最初の攻撃手法であるVVRecを紹介する。
4つのよく訓練されたニューラルネットワークモジュールを用いて、インターセプト伝送中間結果から高品質な点雲を再構築できることを実証する。
結果は、VVRecが64.70dBの再現精度を達成し、ベースライン上の歪みを46.39%低減したことを示している。
- 参考スコア(独自算出の注目度): 7.537581746584858
- License:
- Abstract: With the popularity of 3D volumetric video applications, such as Autonomous Driving, Virtual Reality, and Mixed Reality, current developers have turned to deep learning for compressing volumetric video frames, i.e., point clouds for video upstreaming. The latest deep learning-based solutions offer higher efficiency, lower distortion, and better hardware support compared to traditional ones like MPEG and JPEG. However, privacy threats arise, especially reconstruction attacks targeting to recover the original input point cloud from the intermediate results. In this paper, we design VVRec, to the best of our knowledge, which is the first targeting DL-based Volumetric Video Reconstruction attack scheme. VVRec demonstrates the ability to reconstruct high-quality point clouds from intercepted transmission intermediate results using four well-trained neural network modules we design. Leveraging the latest latent diffusion models with Gamma distribution and a refinement algorithm, VVRec excels in reconstruction quality, color recovery, and surpasses existing defenses. We evaluate VVRec using three volumetric video datasets. The results demonstrate that VVRec achieves 64.70dB reconstruction accuracy, with an impressive 46.39% reduction of distortion over baselines.
- Abstract(参考訳): Autonomous Driving、Virtual Reality、Mixed Realityといった3Dボリュームビデオアプリケーションの人気により、現在の開発者は、ビデオアップストリームのためのポイントクラウドなど、ボリュームビデオフレームを圧縮するためのディープラーニングに移行している。
最新のディープラーニングベースのソリューションは、MPEGやJPEGといった従来のソリューションと比較して、高い効率、低い歪み、ハードウェアサポートを提供する。
しかし、プライバシの脅威、特に中間結果から元の入力点雲を回復するためにターゲットとする再構築攻撃が発生する。
本稿では,DLをベースとしたボリュームビデオ再構成攻撃方式として初めて,VVRecを設計する。
VVRecは、設計した4つのよく訓練されたニューラルネットワークモジュールを使用して、インターセプトされた送信中間結果から高品質な点雲を再構築する能力を示す。
Gammaディストリビューションと改良アルゴリズムを備えた最新の潜伏拡散モデルを活用して、VVRecは再構築品質、色回復、既存の防御を超越している。
3つのボリュームビデオデータセットを用いてVVRecを評価する。
結果は、VVRecが64.70dBの再現精度を達成し、ベースライン上の歪みを46.39%低減したことを示している。
関連論文リスト
- Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model [33.766339921655025]
変分オートエンコーダ(VAE)圧縮映像の潜時表現への変換は、潜時ビデオ拡散モデル(LVDM)の重要な構成要素である
ほとんどのLVDMは2次元画像VAEを使用し、ビデオの圧縮は空間次元のみであり、時間次元では無視されることが多い。
本稿では、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。
論文 参考訳(メタデータ) (2024-09-02T12:20:42Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Multi-level Wavelet-based Generative Adversarial Network for Perceptual
Quality Enhancement of Compressed Video [51.631731922593225]
既存の手法は主に、その知覚的品質を無視しながら、圧縮映像の客観的品質を高めることに焦点を当てている。
圧縮ビデオの知覚品質を高めるために,マルチレベルウェーブレットパケット変換(WPT)に基づくGAN(Generative Adversarial Network)を提案する。
論文 参考訳(メタデータ) (2020-08-02T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。