論文の概要: DiVA-360: The Dynamic Visuo-Audio Dataset for Immersive Neural Fields
- arxiv url: http://arxiv.org/abs/2307.16897v1
- Date: Mon, 31 Jul 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:04:24.682992
- Title: DiVA-360: The Dynamic Visuo-Audio Dataset for Immersive Neural Fields
- Title(参考訳): DiVA-360: 入射型ニューラルネットワークのための動的ビジュオオーディオデータセット
- Authors: Cheng-You Lu, Peisen Zhou, Angela Xing, Chandradeep Pokhariya, Arnab
Dey, Ishaan Shah, Rugved Mavidipalli, Dylan Hu, Andrew Comport, Kefan Chen,
Srinath Sridhar
- Abstract要約: DiVA-360は、マルチモーダル視覚、オーディオ、テキスト情報を同期した360度ダイナミックオーディオデータセットである。
46のダイナミックシーン、30の静的シーン、95の静的オブジェクト、11のカテゴリにまたがる新しいハードウェアシステムを含んでいる。
我々は,すべての場面の詳細なテキスト記述,前景のセグメンテーションマスク,静的オブジェクトのカテゴリ固有の3Dポーズアライメント,および比較のためのメトリクスを提供する。
- 参考スコア(独自算出の注目度): 5.978180943441836
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advances in neural fields are enabling high-fidelity capture of the shape and
appearance of static and dynamic scenes. However, their capabilities lag behind
those offered by representations such as pixels or meshes due to algorithmic
challenges and the lack of large-scale real-world datasets. We address the
dataset limitation with DiVA-360, a real-world 360 dynamic visual-audio dataset
with synchronized multimodal visual, audio, and textual information about
table-scale scenes. It contains 46 dynamic scenes, 30 static scenes, and 95
static objects spanning 11 categories captured using a new hardware system
using 53 RGB cameras at 120 FPS and 6 microphones for a total of 8.6M image
frames and 1360 s of dynamic data. We provide detailed text descriptions for
all scenes, foreground-background segmentation masks, category-specific 3D pose
alignment for static objects, as well as metrics for comparison. Our data,
hardware and software, and code are available at https://diva360.github.io/.
- Abstract(参考訳): ニューラルネットワークの進歩は、静的および動的シーンの形状と外観の高忠実なキャプチャを可能にしている。
しかし、アルゴリズム上の課題や大規模な実世界のデータセットの欠如により、その能力はピクセルやメッシュといった表現によって提供されるものよりも遅れている。
diva-360は実世界の360度ダイナミックなビジュアルオーディオデータセットで、テーブル規模のシーンに関するマルチモーダルなビジュアル、オーディオ、テキスト情報を同期する。
46のダイナミックシーン、30の静的シーン、95の静的オブジェクトが含まれており、53台のRGBカメラを120FPS、6台のマイクで、合計8.6Mのイメージフレームと1360のダイナミックデータを用いて、11のカテゴリにまたがる。
全シーンの詳細なテキスト記述、前景と後景のセグメンテーションマスク、静的オブジェクトのカテゴリ固有の3dポーズアライメント、比較のためのメトリクスを提供する。
私たちのデータ、ハードウェア、ソフトウェア、コードはhttps://diva360.github.io/で入手できる。
関連論文リスト
- 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:07:31Z) - Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic
Scenes [69.52540205439989]
グリッドベースの幾何表現と多視点画像に基づく外観表現からなるハイブリッド表現であるIm4Dを紹介する。
画像の特徴から3Dポイントの色を予測することを学習する,オリジナルのマルチビュービデオとネットワークによってシーンの外観を表現する。
我々は,512x512画像に対して,79.8 FPSのリアルタイムレンダリングを実現しつつ,レンダリング品質が向上し,効率よくトレーニングできるIm4Dの最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文 参考訳(メタデータ) (2023-03-25T18:55:09Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。