論文の概要: OmniHorizon: In-the-Wild Outdoors Depth and Normal Estimation from
Synthetic Omnidirectional Dataset
- arxiv url: http://arxiv.org/abs/2212.05040v1
- Date: Fri, 9 Dec 2022 18:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:10:59.598336
- Title: OmniHorizon: In-the-Wild Outdoors Depth and Normal Estimation from
Synthetic Omnidirectional Dataset
- Title(参考訳): OmniHorizon:合成全方位データを用いた室内深度と正規推定
- Authors: Jay Bhanushali, Praneeth Chakravarthula, Manivannan Muniyandi
- Abstract要約: オムニホライゾン(OmniHorizon)は、24,335の全方位ビューを持つ合成データセットである。
私たちのデータセットは、照明、一日の設定の異なる時間、歩行者、車両など、動的なシーンコンポーネントを記述しています。
本稿では,UNet と Bottleneck Transformer をベースとしたアーキテクチャ UBotNet を提案する。
- 参考スコア(独自算出の注目度): 3.365646526465954
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding the ambient scene is imperative for several applications such
as autonomous driving and navigation. While obtaining real-world image data
with per-pixel labels is challenging, existing accurate synthetic image
datasets primarily focus on indoor spaces with fixed lighting and scene
participants, thereby severely limiting their application to outdoor scenarios.
In this work we introduce OmniHorizon, a synthetic dataset with 24,335
omnidirectional views comprising of a broad range of indoor and outdoor spaces
consisting of buildings, streets, and diverse vegetation. Our dataset also
accounts for dynamic scene components including lighting, different times of a
day settings, pedestrians, and vehicles. Furthermore, we also demonstrate a
learned synthetic-to-real cross-domain inference method for in-the-wild 3D
scene depth and normal estimation method using our dataset. To this end, we
propose UBotNet, an architecture based on a UNet and a Bottleneck Transformer,
to estimate scene-consistent normals. We show that UBotNet achieves
significantly improved depth accuracy (4.6%) and normal estimation (5.75%)
compared to several existing networks such as U-Net with skip-connections.
Finally, we demonstrate in-the-wild depth and normal estimation on real-world
images with UBotNet trained purely on our OmniHorizon dataset, showing the
promise of proposed dataset and network for scene understanding.
- Abstract(参考訳): 周囲のシーンを理解することは、自律運転やナビゲーションなど、いくつかのアプリケーションにとって不可欠である。
実世界の画像データをピクセルごとのラベルで取得することは難しいが、既存の正確な合成画像データセットは主に照明とシーンの参加者を固定した屋内空間に焦点を当てている。
本研究では, 建物, 街路, 多様な植生からなる広い屋内および屋外空間からなる24,335個の全方位ビューを有する総合データセットであるomnihorizonを紹介する。
当社のデータセットには、照明、一日の設定の異なる時間、歩行者、車など、動的シーンコンポーネントも含まれています。
さらに,本データセットを用いた3次元シーン深度と正規推定のための,学習した合成ドメイン間クロスドメイン推論手法を実証した。
そこで本研究では,UNetとBottleneck TransformerをベースとしたアーキテクチャであるUBotNetを提案する。
UBotNetは,スキップ接続によるU-Netなどの既存ネットワークと比較して,奥行き精度(4.6%)と正常推定(5.75%)を大幅に向上することを示す。
最後に,実世界画像の奥行きと正規推定を実世界データセットに純粋にトレーニングしたubotnetを用いて実証し,提案するデータセットとシーン理解のためのネットワークの期待を示す。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic
Images in Facial Capture Pipelines [8.366597450893456]
我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。
本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。
我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
論文 参考訳(メタデータ) (2022-04-22T15:09:49Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - STPLS3D: A Large-Scale Synthetic and Real Aerial Photogrammetry 3D Point
Cloud Dataset [6.812704277866377]
本稿では,合成空中測光点雲生成パイプラインを提案する。
仮想ゲームで合成データを生成するのとは異なり、提案したパイプラインは実環境の再構築プロセスをシミュレートする。
我々は、リッチな注釈付き合成3D空中測光点クラウドデータセットを提案する。
論文 参考訳(メタデータ) (2022-03-17T03:50:40Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。