論文の概要: 360 in the Wild: Dataset for Depth Prediction and View Synthesis
- arxiv url: http://arxiv.org/abs/2406.18898v1
- Date: Thu, 27 Jun 2024 05:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:17:37.502632
- Title: 360 in the Wild: Dataset for Depth Prediction and View Synthesis
- Title(参考訳): 360 in the Wild: Dataset for Depth Prediction and View Synthesis
- Authors: Kibaek Park, Francois Rameau, Jaesik Park, In So Kweon,
- Abstract要約: 大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
- 参考スコア(独自算出の注目度): 66.58513725342125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The large abundance of perspective camera datasets facilitated the emergence of novel learning-based strategies for various tasks, such as camera localization, single image depth estimation, or view synthesis. However, panoramic or omnidirectional image datasets, including essential information, such as pose and depth, are mostly made with synthetic scenes. In this work, we introduce a large scale 360$^{\circ}$ videos dataset in the wild. This dataset has been carefully scraped from the Internet and has been captured from various locations worldwide. Hence, this dataset exhibits very diversified environments (e.g., indoor and outdoor) and contexts (e.g., with and without moving objects). Each of the 25K images constituting our dataset is provided with its respective camera's pose and depth map. We illustrate the relevance of our dataset for two main tasks, namely, single image depth estimation and view synthesis.
- Abstract(参考訳): パースペクティブカメラデータセットの多さは、カメラのローカライゼーション、単一画像深度推定、ビュー合成など、様々なタスクのための新しい学習ベースの戦略の出現を促した。
しかし、ポーズや奥行きといった重要な情報を含むパノラマ画像や全方位画像のデータセットは、主に合成シーンで作られる。
本研究では,大規模な360$^{\circ}$ビデオデータセットをワイルドに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
したがって、このデータセットは、非常に多様化した環境(例えば、屋内、屋外)とコンテキスト(例えば、移動対象を持たないもの)を示す。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
単一画像深度推定とビュー合成という2つの主要なタスクに対するデータセットの関連性について述べる。
関連論文リスト
- MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - 360+x: A Panoptic Multi-modal Scene Understanding Dataset [13.823967656097146]
360+xは、複数の視点を複数のデータモダリティでカバーする最初のデータベースである。
私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。
論文 参考訳(メタデータ) (2024-04-01T08:34:42Z) - MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering [91.76893697171117]
そこで本研究では, 高精度かつ高品質な幾何復元と新規なビュー合成手法を提案する。
私たちのキーとなるアイデアは、低解像度のマルチビュービデオからのみ、放射界の重みをメタラーニングすることです。
新しいデータセットWildDynaCap(ワイルドダイナキャップ)は、密集したカメラドームと細いカメラリグの両方に収まる被写体を含んでいる。
論文 参考訳(メタデータ) (2024-03-27T17:59:54Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - ImageSubject: A Large-scale Dataset for Subject Detection [9.430492045581534]
主に被写体は、写真家が強調したいものなので、通常、画像やビデオの中に存在します。
主対象を検出することは、機械が画像やビデオの内容を理解するのを助ける重要な技術である。
我々は、オブジェクトのレイアウトを理解し、その中の主要な対象を見つけるために、モデルのトレーニングを目標とする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-01-09T22:49:59Z) - Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes [85.56602190773684]
従来のカメラ幾何学を用いて異なる視点からソースイメージを再レンダリングするビュー合成という考え方に基づいている。
映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。
論文 参考訳(メタデータ) (2021-05-05T17:08:10Z) - EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes [21.695100437184507]
このデータセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。
各画像には、セマンティックセグメンテーション、深さ、表面正規化、固有色、光学フローなど、様々な低レベル/高レベルの視覚変調が注釈付けされている。
コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果から, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果が示唆された。
論文 参考訳(メタデータ) (2020-11-09T12:44:29Z) - Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene
Understanding [8.720130442653575]
Hypersimは、総合的な屋内シーン理解のための合成データセットである。
室内461のシーンを77,400枚生成し,詳細なピクセルごとのラベルとそれに対応する地平線形状を推定した。
論文 参考訳(メタデータ) (2020-11-04T20:12:07Z) - SIDOD: A Synthetic Image Dataset for 3D Object Pose Recognition with
Distractors [10.546457120988494]
このデータセットには144kのステレオ画像ペアが含まれており、最大10個のオブジェクトと3つのフォトリアリスティック仮想環境の18のカメラ視点を合成的に組み合わせている。
ドメインのランダム化に対する我々のアプローチを説明し、データセットを作成した決定について考察する。
論文 参考訳(メタデータ) (2020-08-12T00:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。