論文の概要: DiVA-360: The Dynamic Visuo-Audio Dataset for Immersive Neural Fields
- arxiv url: http://arxiv.org/abs/2307.16897v1
- Date: Mon, 31 Jul 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:04:24.682992
- Title: DiVA-360: The Dynamic Visuo-Audio Dataset for Immersive Neural Fields
- Title(参考訳): DiVA-360: 入射型ニューラルネットワークのための動的ビジュオオーディオデータセット
- Authors: Cheng-You Lu, Peisen Zhou, Angela Xing, Chandradeep Pokhariya, Arnab
Dey, Ishaan Shah, Rugved Mavidipalli, Dylan Hu, Andrew Comport, Kefan Chen,
Srinath Sridhar
- Abstract要約: DiVA-360は、マルチモーダル視覚、オーディオ、テキスト情報を同期した360度ダイナミックオーディオデータセットである。
46のダイナミックシーン、30の静的シーン、95の静的オブジェクト、11のカテゴリにまたがる新しいハードウェアシステムを含んでいる。
我々は,すべての場面の詳細なテキスト記述,前景のセグメンテーションマスク,静的オブジェクトのカテゴリ固有の3Dポーズアライメント,および比較のためのメトリクスを提供する。
- 参考スコア(独自算出の注目度): 5.978180943441836
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advances in neural fields are enabling high-fidelity capture of the shape and
appearance of static and dynamic scenes. However, their capabilities lag behind
those offered by representations such as pixels or meshes due to algorithmic
challenges and the lack of large-scale real-world datasets. We address the
dataset limitation with DiVA-360, a real-world 360 dynamic visual-audio dataset
with synchronized multimodal visual, audio, and textual information about
table-scale scenes. It contains 46 dynamic scenes, 30 static scenes, and 95
static objects spanning 11 categories captured using a new hardware system
using 53 RGB cameras at 120 FPS and 6 microphones for a total of 8.6M image
frames and 1360 s of dynamic data. We provide detailed text descriptions for
all scenes, foreground-background segmentation masks, category-specific 3D pose
alignment for static objects, as well as metrics for comparison. Our data,
hardware and software, and code are available at https://diva360.github.io/.
- Abstract(参考訳): ニューラルネットワークの進歩は、静的および動的シーンの形状と外観の高忠実なキャプチャを可能にしている。
しかし、アルゴリズム上の課題や大規模な実世界のデータセットの欠如により、その能力はピクセルやメッシュといった表現によって提供されるものよりも遅れている。
diva-360は実世界の360度ダイナミックなビジュアルオーディオデータセットで、テーブル規模のシーンに関するマルチモーダルなビジュアル、オーディオ、テキスト情報を同期する。
46のダイナミックシーン、30の静的シーン、95の静的オブジェクトが含まれており、53台のRGBカメラを120FPS、6台のマイクで、合計8.6Mのイメージフレームと1360のダイナミックデータを用いて、11のカテゴリにまたがる。
全シーンの詳細なテキスト記述、前景と後景のセグメンテーションマスク、静的オブジェクトのカテゴリ固有の3dポーズアライメント、比較のためのメトリクスを提供する。
私たちのデータ、ハードウェア、ソフトウェア、コードはhttps://diva360.github.io/で入手できる。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation [13.122586587748218]
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
論文 参考訳(メタデータ) (2024-07-19T06:50:24Z) - ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:07:31Z) - Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic
Scenes [69.52540205439989]
グリッドベースの幾何表現と多視点画像に基づく外観表現からなるハイブリッド表現であるIm4Dを紹介する。
画像の特徴から3Dポイントの色を予測することを学習する,オリジナルのマルチビュービデオとネットワークによってシーンの外観を表現する。
我々は,512x512画像に対して,79.8 FPSのリアルタイムレンダリングを実現しつつ,レンダリング品質が向上し,効率よくトレーニングできるIm4Dの最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文 参考訳(メタデータ) (2023-03-25T18:55:09Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。