論文の概要: RIC: Rotate-Inpaint-Complete for Generalizable Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2307.11932v2
- Date: Wed, 4 Oct 2023 22:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 21:51:47.615413
- Title: RIC: Rotate-Inpaint-Complete for Generalizable Scene Reconstruction
- Title(参考訳): RIC : 汎用的なシーン再構築のためのローテートインペントコンプリート
- Authors: Isaac Kasahara, Shubham Agrawal, Selim Engin, Nikhil Chavan-Dafle,
Shuran Song, Volkan Isler
- Abstract要約: 一般的なシーン再構成は、以前は目に見えない物体を含むシーンの完全な3次元形状とテクスチャを推定する作業である。
本稿では,2次元から3次元のシーンリフティングによる新しいビューのレンダリングと2次元から3次元のシーンリフティングという2つのステップに分割して,シーン再構築手法を提案する。
- 参考スコア(独自算出の注目度): 43.63574200858472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General scene reconstruction refers to the task of estimating the full 3D
geometry and texture of a scene containing previously unseen objects. In many
practical applications such as AR/VR, autonomous navigation, and robotics, only
a single view of the scene may be available, making the scene reconstruction
task challenging. In this paper, we present a method for scene reconstruction
by structurally breaking the problem into two steps: rendering novel views via
inpainting and 2D to 3D scene lifting. Specifically, we leverage the
generalization capability of large visual language models (Dalle-2) to inpaint
the missing areas of scene color images rendered from different views. Next, we
lift these inpainted images to 3D by predicting normals of the inpainted image
and solving for the missing depth values. By predicting for normals instead of
depth directly, our method allows for robustness to changes in depth
distributions and scale. With rigorous quantitative evaluation, we show that
our method outperforms multiple baselines while providing generalization to
novel objects and scenes.
- Abstract(参考訳): 一般的なシーン再構成は、これまで見えない物体を含むシーンの完全な3次元形状とテクスチャを推定する作業である。
AR/VR、自律ナビゲーション、ロボット工学といった多くの実践的応用において、シーンの単一のビューしか利用できないため、シーン再構築作業は困難である。
本稿では,2次元から3次元のシーン昇降による新規なビューの描画という2つのステップを構造的に分割して,シーンの再構成を行う手法を提案する。
具体的には,大規模視覚言語モデル(dalle-2)の一般化機能を活用し,異なる視点から描画されたシーンカラー画像の欠落領域を塗りつぶす。
次に, 塗装画像の正常さを予測し, 欠損深度値の解法により, 塗装画像の3次元化を行う。
本手法では, 深度分布やスケールの変化に対して, 直接的に正規分布を予測できる。
厳密な定量的評価により,提案手法が複数のベースラインを上回り,新たなオブジェクトやシーンを一般化する。
関連論文リスト
- Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View [5.222115919729418]
シングルビュー3D再構成は現在、2つの主要な視点からアプローチされている。
分割・分散戦略に従うハイブリッド手法を提案する。
まず、深度と意味情報を抽出し、そのシーンを全体的に処理する。
次に、個々のコンポーネントの詳細な再構築に単発オブジェクトレベル手法を利用する。
論文 参考訳(メタデータ) (2024-04-04T12:58:46Z) - Behind the Veil: Enhanced Indoor 3D Scene Reconstruction with Occluded Surfaces Completion [15.444301186927142]
そこで本研究では,室内の3次元再構成法について述べる。
本手法は,閉鎖されたシーン表面を仕上げる作業に取り組み,完全な3次元シーンメッシュを実現する。
提案手法を3D完全ルームシーン(3D-CRS)とiTHORデータセットで評価した。
論文 参考訳(メタデータ) (2024-04-03T21:18:27Z) - NeRFiller: Completing Scenes via Generative 3D Inpainting [113.18181179986172]
生成3Dインパインティングによる3Dキャプチャの欠落部分を解消する手法であるNeRFillerを提案する。
関連する作品とは対照的に、前景のオブジェクトを削除するのではなく、シーンの完成に重点を置いている。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - O$^2$-Recon: Completing 3D Reconstruction of Occluded Objects in the Scene with a Pre-trained 2D Diffusion Model [28.372289119872764]
咬合は、RGB-Dビデオからの3D再構成において一般的な問題であり、しばしばオブジェクトの完全な再構成をブロックする。
本研究では,物体の隠れた部分の完全な表面を再構築する2次元拡散に基づくインペインティングモデルを用いて,新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-18T14:38:31Z) - SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural
Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。
本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。
我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2022-11-22T13:14:50Z) - PhotoScene: Photorealistic Material and Lighting Transfer for Indoor
Scenes [84.66946637534089]
PhotoSceneは、シーンの入力画像を取得し、高品質な素材と同様の照明を備えたフォトリアリスティックデジタルツインを構築するフレームワークである。
プロシージャ素材グラフを用いてシーン素材をモデル化し、そのようなグラフはフォトリアリスティックおよび解像度非依存の材料を表す。
ScanNet, SUN RGB-D, ストック写真からのオブジェクトとレイアウトの再構築について検討し, 高品質で完全に再現可能な3Dシーンを再現できることを実証した。
論文 参考訳(メタデータ) (2022-07-02T06:52:44Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。