論文の概要: Simple and Effective Synthesis of Indoor 3D Scenes
- arxiv url: http://arxiv.org/abs/2204.02960v1
- Date: Wed, 6 Apr 2022 17:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 12:37:26.509533
- Title: Simple and Effective Synthesis of Indoor 3D Scenes
- Title(参考訳): 室内3次元シーンの簡易かつ効果的な合成
- Authors: Jing Yu Koh, Harsh Agrawal, Dhruv Batra, Richard Tucker, Austin
Waters, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
- Abstract要約: 1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
- 参考スコア(独自算出の注目度): 78.95697556834536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of synthesizing immersive 3D indoor scenes from one or
more images. Our aim is to generate high-resolution images and videos from
novel viewpoints, including viewpoints that extrapolate far beyond the input
images while maintaining 3D consistency. Existing approaches are highly
complex, with many separately trained stages and components. We propose a
simple alternative: an image-to-image GAN that maps directly from reprojections
of incomplete point clouds to full high-resolution RGB-D images. On the
Matterport3D and RealEstate10K datasets, our approach significantly outperforms
prior work when evaluated by humans, as well as on FID scores. Further, we show
that our model is useful for generative data augmentation. A
vision-and-language navigation (VLN) agent trained with trajectories
spatially-perturbed by our model improves success rate by up to 1.5% over a
state of the art baseline on the R2R benchmark. Our code will be made available
to facilitate generative data augmentation and applications to downstream
robotics and embodied AI tasks.
- Abstract(参考訳): 没入型3D屋内シーンを1つ以上の画像から合成する問題について検討する。
本研究の目的は,3次元一貫性を維持しつつ入力画像から遠ざかる視点を含む,新しい視点から高解像度画像と映像を生成することである。
既存のアプローチは非常に複雑で、多くの個別に訓練されたステージとコンポーネントがある。
我々は,不完全な点雲の再投影からフル解像度のrgb-d画像へ直接マップする画像対画像ganを提案する。
Matterport3DとRealEstate10Kのデータセットでは、人間による評価やFIDスコアにおいて、従来の作業よりも大幅に優れています。
さらに,本モデルは生成的データ拡張に有用であることを示す。
トラジェクタで訓練された視覚言語ナビゲーション (vln) エージェントは, r2rベンチマークにおける技術ベースラインの状態よりも, 成功率を最大1.5%向上させる。
私たちのコードは、生成データの拡張と、下流のロボティクスや組み込みAIタスクへの応用を促進するために利用されます。
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Ground material classification and for UAV-based photogrammetric 3D data
A 2D-3D Hybrid Approach [1.3359609092684614]
近年,物理環境を表す3次元仮想データを作成するために,多くの領域でフォトグラム法が広く用いられている。
これらの最先端技術は、迅速な3D戦場再建、仮想訓練、シミュレーションを目的として、アメリカ陸軍と海軍の注意を引き付けている。
論文 参考訳(メタデータ) (2021-09-24T22:29:26Z) - Attention-based 3D Object Reconstruction from a Single Image [0.2519906683279153]
本稿では,3次元オブジェクト再構成の最先端手法であるOccupancy Networksを改良することを提案する。
本稿では,ネットワークエンコーダ内の自己注意の概念を適用し,補完的な入力機能を活用する。
我々は、メッシュIoUの5.05%、正規一貫性の0.83%、チャンファー-L1距離の10倍以上でオリジナルの作業を改善することができた。
論文 参考訳(メタデータ) (2020-08-11T14:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。