論文の概要: ViVo: A Dataset for Volumetric Video Reconstruction and Compression
- arxiv url: http://arxiv.org/abs/2506.00558v2
- Date: Mon, 09 Jun 2025 16:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.099835
- Title: ViVo: A Dataset for Volumetric Video Reconstruction and Compression
- Title(参考訳): ViVo: ボリュームビデオの再構成と圧縮のためのデータセット
- Authors: Adrian Azzarelli, Ge Gao, Ho Man Kwan, Fan Zhang, Nantheera Anantrasirichai, Ollie Moolan-Feroze, David Bull,
- Abstract要約: 本稿では,VolumetrIc VideO再構成と圧縮のための新しいデータセットViVoを提案する。
データセットは実世界のボリュームビデオ制作に忠実であり、多様性の定義を拡張する最初のデータセットである。
このデータベースの利用を実証するために,3つの最先端3次元再構成手法と2つのボリュームビデオ圧縮アルゴリズムをベンチマークした。
- 参考スコア(独自算出の注目度): 13.827241444266308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As research on neural volumetric video reconstruction and compression flourishes, there is a need for diverse and realistic datasets, which can be used to develop and validate reconstruction and compression models. However, existing volumetric video datasets lack diverse content in terms of both semantic and low-level features that are commonly present in real-world production pipelines. In this context, we propose a new dataset, ViVo, for VolumetrIc VideO reconstruction and compression. The dataset is faithful to real-world volumetric video production and is the first dataset to extend the definition of diversity to include both human-centric characteristics (skin, hair, etc.) and dynamic visual phenomena (transparent, reflective, liquid, etc.). Each video sequence in this database contains raw data including fourteen multi-view RGB and depth video pairs, synchronized at 30FPS with per-frame calibration and audio data, and their associated 2-D foreground masks and 3-D point clouds. To demonstrate the use of this database, we have benchmarked three state-of-the-art (SotA) 3-D reconstruction methods and two volumetric video compression algorithms. The obtained results evidence the challenging nature of the proposed dataset and the limitations of existing datasets for both volumetric video reconstruction and compression tasks, highlighting the need to develop more effective algorithms for these applications. The database and the associated results are available at https://vivo-bvicr.github.io/
- Abstract(参考訳): ニューラルボリュームビデオ再構成と圧縮の研究が盛んになるにつれて、再構成と圧縮モデルの開発と検証に使用できる、多種多様な現実的なデータセットが求められている。
しかし、既存のボリュームビデオデータセットには、実世界のプロダクションパイプラインで一般的に見られるセマンティック機能と低レベル機能の両方の観点から、多様な内容が欠けている。
そこで本研究では,VolumetrIc VideO再構成と圧縮のための新しいデータセットViVoを提案する。
このデータセットは実世界のボリュームビデオ制作に忠実であり、人間中心の特徴(皮膚、毛髪など)と動的視覚現象(透明、反射、液体など)の両方を含むように多様性の定義を拡張する最初のデータセットである。
このデータベース内の各ビデオシーケンスは、フレーム単位のキャリブレーションとオーディオデータと30FPSで同期された14のマルチビューRGBとディープビデオペアを含む生データと、関連する2Dフォアグラウンドマスクと3Dポイントクラウドを含む。
このデータベースの利用を実証するために,3つの最先端(SotA)3次元再構成法と2つのボリュームビデオ圧縮アルゴリズムをベンチマークした。
その結果、提案したデータセットの難易度と、ボリュームビデオ再構成と圧縮の両方のタスクにおける既存のデータセットの限界が証明され、これらのアプリケーションに対してより効率的なアルゴリズムを開発する必要性が強調された。
データベースと関連する結果はhttps://vivo-bvicr.github.io/で公開されている。
関連論文リスト
- UVG-VPC: Voxelized Point Cloud Dataset for Visual Volumetric Video-based Coding [42.999580283729614]
本稿では,MPEG Visual Volumetric Video-based Coding (V3C)技術の開発,評価,検証を行うために,UVG-VPCと呼ばれる新しいオープンデータセットを提案する。
データセットは、独自の非商用ライセンスの下で配布される。
論文 参考訳(メタデータ) (2025-04-08T10:27:53Z) - Unified Dense Prediction of Video Diffusion [91.16237431830417]
テキストプロンプトからビデオとその対応するエンティティセグメンテーションと深度マップを同時に生成する統合ネットワークを提案する。
カラーマップを用いて実体マスクと深度マップを表現し,RGBビデオ生成と密集予測を密に統合する。
論文 参考訳(メタデータ) (2025-03-12T12:41:02Z) - Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文 参考訳(メタデータ) (2024-11-28T05:37:54Z) - BVI-CR: A Multi-View Human Dataset for Volumetric Video Compression [14.109939177281069]
BVI-CRは18のマルチビューRGB-Dキャプチャとそれに対応するテクスチャ化された多角形メッシュを含んでいる。
各ビデオシーケンスは、30FPSで10~15秒間の1080p解像度で10ビューを含む。
その結果、ボリュームビデオ圧縮におけるニューラル表現に基づく手法の大きな可能性を示した。
論文 参考訳(メタデータ) (2024-11-17T23:22:48Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes [56.4361151691284]
PVDD(Practical Video Denoising dataset)は,200個のノイズクリーンな動的ビデオペアをsRGBおよびRAW形式で格納する。
限られた動き情報からなる既存のデータセットと比較すると、PVDDは自然な動きの変化する動的なシーンをカバーしている。
論文 参考訳(メタデータ) (2022-07-04T12:30:22Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。