論文の概要: BVI-CR: A Multi-View Human Dataset for Volumetric Video Compression
- arxiv url: http://arxiv.org/abs/2411.11199v1
- Date: Sun, 17 Nov 2024 23:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:22.766655
- Title: BVI-CR: A Multi-View Human Dataset for Volumetric Video Compression
- Title(参考訳): BVI-CR: ボリュームビデオ圧縮のためのマルチビューヒューマンデータセット
- Authors: Ge Gao, Adrian Azzarelli, Ho Man Kwan, Nantheera Anantrasirichai, Fan Zhang, Oliver Moolan-Feroze, David Bull,
- Abstract要約: BVI-CRは18のマルチビューRGB-Dキャプチャとそれに対応するテクスチャ化された多角形メッシュを含んでいる。
各ビデオシーケンスは、30FPSで10~15秒間の1080p解像度で10ビューを含む。
その結果、ボリュームビデオ圧縮におけるニューラル表現に基づく手法の大きな可能性を示した。
- 参考スコア(独自算出の注目度): 14.109939177281069
- License:
- Abstract: The advances in immersive technologies and 3D reconstruction have enabled the creation of digital replicas of real-world objects and environments with fine details. These processes generate vast amounts of 3D data, requiring more efficient compression methods to satisfy the memory and bandwidth constraints associated with data storage and transmission. However, the development and validation of efficient 3D data compression methods are constrained by the lack of comprehensive and high-quality volumetric video datasets, which typically require much more effort to acquire and consume increased resources compared to 2D image and video databases. To bridge this gap, we present an open multi-view volumetric human dataset, denoted BVI-CR, which contains 18 multi-view RGB-D captures and their corresponding textured polygonal meshes, depicting a range of diverse human actions. Each video sequence contains 10 views in 1080p resolution with durations between 10-15 seconds at 30FPS. Using BVI-CR, we benchmarked three conventional and neural coordinate-based multi-view video compression methods, following the MPEG MIV Common Test Conditions, and reported their rate quality performance based on various quality metrics. The results show the great potential of neural representation based methods in volumetric video compression compared to conventional video coding methods (with an up to 38\% average coding gain in PSNR). This dataset provides a development and validation platform for a variety of tasks including volumetric reconstruction, compression, and quality assessment. The database will be shared publicly at \url{https://github.com/fan-aaron-zhang/bvi-cr}.
- Abstract(参考訳): 没入型技術と3D再構成の進歩により、現実世界のオブジェクトと環境のデジタルレプリカを細部まで作成できるようになった。
これらのプロセスは膨大な量の3Dデータを生成し、データストレージと送信に関連するメモリと帯域幅の制約を満たすためにより効率的な圧縮方法を必要とする。
しかし、効率的な3Dデータ圧縮手法の開発と検証は、包括的で高品質なボリュームビデオデータセットの欠如によって制約される。
このギャップを埋めるために、BVI-CRと呼ばれるオープンなマルチビューボリューム人間データセットを提示する。これは18のマルチビューRGB-Dキャプチャーと、それに対応するテクスチャ化された多角形メッシュを含み、多様な人間の行動を示している。
各ビデオシーケンスは、30FPSで10~15秒間の1080p解像度で10ビューを含む。
BVI-CR を用いて,MPEG MIV Common Test Conditions に従って,従来型およびニューラルな座標に基づく多視点ビデオ圧縮手法のベンチマークを行った。
その結果,従来のビデオ符号化法と比較して,画像圧縮におけるニューラル表現に基づく手法の大きな可能性を示している(PSNRの平均符号化利得は38%)。
このデータセットは、ボリューム再構築、圧縮、品質評価など、さまざまなタスクのための開発および検証プラットフォームを提供する。
データベースは \url{https://github.com/fan-aaron-zhang/bvi-cr} で公開される。
関連論文リスト
- Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - LSCD: A Large-Scale Screen Content Dataset for Video Compression [5.857003653854907]
714のソースシーケンスを含む大規模画面コンテンツデータセットを提案する。
本稿では,スクリーンコンテンツビデオの特徴を示すために提案したデータセットの分析を行う。
また、従来の手法と学習法の両方のパフォーマンスを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-08-18T06:27:35Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - BVI-DVC: A Training Database for Deep Video Compression [13.730093064777078]
BVI-DVCはCNNベースのビデオ圧縮システムのトレーニング用に提供される。
270pから2160pまでの様々な空間分解能で800の配列を含む。
既存の10のネットワークアーキテクチャで、4つの異なるコーディングツールで評価されている。
論文 参考訳(メタデータ) (2020-03-30T15:26:16Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。