論文の概要: Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene
Understanding
- arxiv url: http://arxiv.org/abs/2011.02523v5
- Date: Wed, 18 Aug 2021 03:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:58:06.661633
- Title: Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene
Understanding
- Title(参考訳): Hypersim:ホロスティックな室内シーン理解のためのフォトリアリスティックな合成データセット
- Authors: Mike Roberts, Jason Ramapuram, Anurag Ranjan, Atulit Kumar, Miguel
Angel Bautista, Nathan Paczan, Russ Webb, Joshua M. Susskind
- Abstract要約: Hypersimは、総合的な屋内シーン理解のための合成データセットである。
室内461のシーンを77,400枚生成し,詳細なピクセルごとのラベルとそれに対応する地平線形状を推定した。
- 参考スコア(独自算出の注目度): 8.720130442653575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many fundamental scene understanding tasks, it is difficult or impossible
to obtain per-pixel ground truth labels from real images. We address this
challenge by introducing Hypersim, a photorealistic synthetic dataset for
holistic indoor scene understanding. To create our dataset, we leverage a large
repository of synthetic scenes created by professional artists, and we generate
77,400 images of 461 indoor scenes with detailed per-pixel labels and
corresponding ground truth geometry. Our dataset: (1) relies exclusively on
publicly available 3D assets; (2) includes complete scene geometry, material
information, and lighting information for every scene; (3) includes dense
per-pixel semantic instance segmentations and complete camera information for
every image; and (4) factors every image into diffuse reflectance, diffuse
illumination, and a non-diffuse residual term that captures view-dependent
lighting effects.
We analyze our dataset at the level of scenes, objects, and pixels, and we
analyze costs in terms of money, computation time, and annotation effort.
Remarkably, we find that it is possible to generate our entire dataset from
scratch, for roughly half the cost of training a popular open-source natural
language processing model. We also evaluate sim-to-real transfer performance on
two real-world scene understanding tasks - semantic segmentation and 3D shape
prediction - where we find that pre-training on our dataset significantly
improves performance on both tasks, and achieves state-of-the-art performance
on the most challenging Pix3D test set. All of our rendered image data, as well
as all the code we used to generate our dataset and perform our experiments, is
available online.
- Abstract(参考訳): 多くの基本的なシーン理解タスクでは、実画像からピクセル単位の基底真理ラベルを得ることは困難か不可能である。
この課題に対して,全体論的屋内シーン理解のためのフォトリアリスティック合成データセットであるHypersimを導入する。
データセットを作成するために、プロのアーティストが作成した合成シーンの大規模なリポジトリを活用し、詳細なピクセルごとのラベルとそれに対応する地上の真実の幾何を持つ461の屋内シーンの77,400枚の画像を生成する。
データセットは,(1)一般公開された3dアセットのみに依存し,(2)シーン毎の完全なシーン形状,素材情報,照明情報,(3)ピクセル毎の密集したセマンティクスインスタンスセグメンテーション,および画像毎のカメラ情報,(4)すべての画像が拡散反射,拡散照明,及びビュー依存の照明効果をキャプチャする非拡散残余項を含む。
我々は、シーン、オブジェクト、ピクセルのレベルでデータセットを分析し、お金、計算時間、アノテーションの労力の観点からコストを分析します。
注目すべきは、人気のあるオープンソース自然言語処理モデルのトレーニングコストのおよそ半分で、データセット全体をスクラッチから生成することが可能であることです。
また,semantic segmentation(意味セグメンテーション)と3d shape prediction(形状予測)という2つの実世界のシーン理解タスクにおけるsim-to-real転送性能を評価した。
レンダリングされた画像データと、データセットの生成と実験の実行に使用したコードはすべて、オンラインで利用可能です。
関連論文リスト
- 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - PhotoScene: Photorealistic Material and Lighting Transfer for Indoor
Scenes [84.66946637534089]
PhotoSceneは、シーンの入力画像を取得し、高品質な素材と同様の照明を備えたフォトリアリスティックデジタルツインを構築するフレームワークである。
プロシージャ素材グラフを用いてシーン素材をモデル化し、そのようなグラフはフォトリアリスティックおよび解像度非依存の材料を表す。
ScanNet, SUN RGB-D, ストック写真からのオブジェクトとレイアウトの再構築について検討し, 高品質で完全に再現可能な3Dシーンを再現できることを実証した。
論文 参考訳(メタデータ) (2022-07-02T06:52:44Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - PX-NET: Simple and Efficient Pixel-Wise Training of Photometric Stereo
Networks [26.958763133729846]
光を反射する物体の正確な3D再構成は、コンピュータビジョンにおいて非常に難しい課題だ。
本稿では,グローバルにレンダリングされた画像のトレーニングデータ(観測マップ)を,画素単位の独立なデータに置き換えることで,正規予測のための新たな画素単位のトレーニング手順を提案する。
我々のネットワークであるPX-NETは、合成データセット上の他のピクセルワイズ手法と比較して最先端の性能を実現している。
論文 参考訳(メタデータ) (2020-08-11T18:03:13Z) - Detection and Segmentation of Custom Objects using High Distraction
Photorealistic Synthetic Data [0.5076419064097732]
合成データを用いてインスタンスセグメンテーションを行うための簡便で有用な手法を示す。
目標は、カスタムオブジェクトの実際のデータを手動で収集し、注釈付けすることで、高いパフォーマンスを達成することである。
このホワイトペーパーは、光実写シミュレーションデータが現実の応用に利用できるという強い証拠を提供する。
論文 参考訳(メタデータ) (2020-07-28T16:33:42Z) - OpenRooms: An End-to-End Open Framework for Photorealistic Indoor Scene
Datasets [103.54691385842314]
本研究では,屋内シーンの大規模フォトリアリスティックデータセットを作成するための新しいフレームワークを提案する。
私たちの目標は、データセット作成プロセスを広く利用できるようにすることです。
これにより、逆レンダリング、シーン理解、ロボット工学における重要な応用が可能になる。
論文 参考訳(メタデータ) (2020-07-25T06:48:47Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。