論文の概要: Simple and Effective Synthesis of Indoor 3D Scenes
- arxiv url: http://arxiv.org/abs/2204.02960v1
- Date: Wed, 6 Apr 2022 17:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 12:37:26.509533
- Title: Simple and Effective Synthesis of Indoor 3D Scenes
- Title(参考訳): 室内3次元シーンの簡易かつ効果的な合成
- Authors: Jing Yu Koh, Harsh Agrawal, Dhruv Batra, Richard Tucker, Austin
Waters, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
- Abstract要約: 1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
- 参考スコア(独自算出の注目度): 78.95697556834536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of synthesizing immersive 3D indoor scenes from one or
more images. Our aim is to generate high-resolution images and videos from
novel viewpoints, including viewpoints that extrapolate far beyond the input
images while maintaining 3D consistency. Existing approaches are highly
complex, with many separately trained stages and components. We propose a
simple alternative: an image-to-image GAN that maps directly from reprojections
of incomplete point clouds to full high-resolution RGB-D images. On the
Matterport3D and RealEstate10K datasets, our approach significantly outperforms
prior work when evaluated by humans, as well as on FID scores. Further, we show
that our model is useful for generative data augmentation. A
vision-and-language navigation (VLN) agent trained with trajectories
spatially-perturbed by our model improves success rate by up to 1.5% over a
state of the art baseline on the R2R benchmark. Our code will be made available
to facilitate generative data augmentation and applications to downstream
robotics and embodied AI tasks.
- Abstract(参考訳): 没入型3D屋内シーンを1つ以上の画像から合成する問題について検討する。
本研究の目的は,3次元一貫性を維持しつつ入力画像から遠ざかる視点を含む,新しい視点から高解像度画像と映像を生成することである。
既存のアプローチは非常に複雑で、多くの個別に訓練されたステージとコンポーネントがある。
我々は,不完全な点雲の再投影からフル解像度のrgb-d画像へ直接マップする画像対画像ganを提案する。
Matterport3DとRealEstate10Kのデータセットでは、人間による評価やFIDスコアにおいて、従来の作業よりも大幅に優れています。
さらに,本モデルは生成的データ拡張に有用であることを示す。
トラジェクタで訓練された視覚言語ナビゲーション (vln) エージェントは, r2rベンチマークにおける技術ベースラインの状態よりも, 成功率を最大1.5%向上させる。
私たちのコードは、生成データの拡張と、下流のロボティクスや組み込みAIタスクへの応用を促進するために利用されます。
関連論文リスト
- DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Ground material classification and for UAV-based photogrammetric 3D data
A 2D-3D Hybrid Approach [1.3359609092684614]
近年,物理環境を表す3次元仮想データを作成するために,多くの領域でフォトグラム法が広く用いられている。
これらの最先端技術は、迅速な3D戦場再建、仮想訓練、シミュレーションを目的として、アメリカ陸軍と海軍の注意を引き付けている。
論文 参考訳(メタデータ) (2021-09-24T22:29:26Z) - Attention-based 3D Object Reconstruction from a Single Image [0.2519906683279153]
本稿では,3次元オブジェクト再構成の最先端手法であるOccupancy Networksを改良することを提案する。
本稿では,ネットワークエンコーダ内の自己注意の概念を適用し,補完的な入力機能を活用する。
我々は、メッシュIoUの5.05%、正規一貫性の0.83%、チャンファー-L1距離の10倍以上でオリジナルの作業を改善することができた。
論文 参考訳(メタデータ) (2020-08-11T14:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。