論文の概要: ImViD: Immersive Volumetric Videos for Enhanced VR Engagement
- arxiv url: http://arxiv.org/abs/2503.14359v1
- Date: Tue, 18 Mar 2025 15:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:42.948306
- Title: ImViD: Immersive Volumetric Videos for Enhanced VR Engagement
- Title(参考訳): ImViD:VRエンゲージメント強化のための没入型ボリュームビデオ
- Authors: Zhengxian Yang, Shi Pan, Shengqi Wang, Haoxiang Wang, Li Lin, Guanjun Li, Zhengqi Wen, Borong Lin, Jianhua Tao, Tao Yu,
- Abstract要約: VR/AR技術の次のフロンティアは、完全なシーンキャプチャー、大きな6-DoFインタラクションスペース、マルチモーダルフィードバック、高解像度とフレームレートのコンテンツを備えた没入型ボリュームビデオである。
完全空間指向データキャプチャと様々な屋内/屋外シナリオを備えたマルチビューマルチモーダルデータセットであるImViDを紹介する。
我々のキャプチャリグは、移動中のマルチビュービデオオーディオキャプチャをサポートし、データの完全性、柔軟性、効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 34.450247091615395
- License:
- Abstract: User engagement is greatly enhanced by fully immersive multi-modal experiences that combine visual and auditory stimuli. Consequently, the next frontier in VR/AR technologies lies in immersive volumetric videos with complete scene capture, large 6-DoF interaction space, multi-modal feedback, and high resolution & frame-rate contents. To stimulate the reconstruction of immersive volumetric videos, we introduce ImViD, a multi-view, multi-modal dataset featuring complete space-oriented data capture and various indoor/outdoor scenarios. Our capture rig supports multi-view video-audio capture while on the move, a capability absent in existing datasets, significantly enhancing the completeness, flexibility, and efficiency of data capture. The captured multi-view videos (with synchronized audios) are in 5K resolution at 60FPS, lasting from 1-5 minutes, and include rich foreground-background elements, and complex dynamics. We benchmark existing methods using our dataset and establish a base pipeline for constructing immersive volumetric videos from multi-view audiovisual inputs for 6-DoF multi-modal immersive VR experiences. The benchmark and the reconstruction and interaction results demonstrate the effectiveness of our dataset and baseline method, which we believe will stimulate future research on immersive volumetric video production.
- Abstract(参考訳): ユーザエンゲージメントは、視覚と聴覚の刺激を組み合わせた、完全に没入的なマルチモーダル体験によって大幅に向上する。
その結果、VR/AR技術の次のフロンティアは、完全なシーンキャプチャー、大きな6-DoFインタラクションスペース、マルチモーダルフィードバック、高解像度とフレームレートのコンテンツを備えた没入型ボリュームビデオである。
没入型ボリュームビデオの再構成を促進するために,空間指向の完全なデータキャプチャと様々な屋内/屋外シナリオを備えたマルチビューマルチモーダルデータセットであるImViDを紹介する。
私たちのキャプチャリグは、移動中のマルチビュービデオオーディオキャプチャをサポートし、既存のデータセットにはない機能を備え、データの完全性、柔軟性、効率を大幅に向上します。
キャプチャされたマルチビュービデオ(同期オーディオ付き)は、60FPSで5K解像度で、1~5分持続する。
我々は,我々のデータセットを用いて既存の手法をベンチマークし,マルチビュー音声視覚入力から没入型ボリュームビデオを構築するためのベースパイプラインを構築し,マルチモード没入型VR体験を実現する。
このベンチマークとリコンストラクションとインタラクションの結果は,我々のデータセットとベースライン手法の有効性を示すものである。
関連論文リスト
- AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Den-SOFT: Dense Space-Oriented Light Field DataseT for 6-DOF Immersive Experience [28.651514326042648]
我々は,移動式マルチカメラ大空間高密度光場キャプチャシステムを構築した。
本研究の目的は,一般的な3次元シーン再構築アルゴリズムの開発に貢献することである。
収集されたデータセットは、既存のデータセットよりもはるかに密度が高い。
論文 参考訳(メタデータ) (2024-03-15T02:39:44Z) - EasyVolcap: Accelerating Neural Volumetric Video Research [69.59671164891725]
ボリュームビデオは、芸術的パフォーマンス、スポーツイベント、リモート会話などの動的イベントをデジタル的に記録する技術である。
EasyVolcapはPythonとPytorchのライブラリで、マルチビューデータ処理、4Dシーン再構成、効率的なダイナミックボリュームビデオレンダリングのプロセスを統一する。
論文 参考訳(メタデータ) (2023-12-11T17:59:46Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Learning to compose 6-DoF omnidirectional videos using multi-sphere
images [16.423725132964776]
本研究では,3D ConvNet を用いて,6-DoF VR で体験可能な多球面画像表現を生成するシステムを提案する。
このシステムは、深度マップやセグメンテーションマスクを必要とせずに、従来の全方向VRカメラの映像を直接利用します。
高品質なアーティファクトフリー6-DoFコンテンツに対する基礎的真理生成手法を提案し,研究・開発コミュニティで利用することができる。
論文 参考訳(メタデータ) (2021-03-10T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。