論文の概要: InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
- arxiv url: http://arxiv.org/abs/2401.05335v1
- Date: Wed, 10 Jan 2024 18:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 13:59:14.255782
- Title: InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
- Title(参考訳): InseRF: ニューラル3次元シーンにおけるテキスト駆動生成オブジェクト挿入
- Authors: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins,
Alessio Tonioni, Luc Van Gool, Federico Tombari
- Abstract要約: InseRFは3次元シーンのNeRF再構成において生成物挿入のための新しい手法である。
ユーザが提供するテキスト記述と参照視点での2Dバウンディングボックスに基づいて、InseRFは3Dシーンで新しいオブジェクトを生成する。
- 参考スコア(独自算出の注目度): 86.26588382747184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce InseRF, a novel method for generative object insertion in the
NeRF reconstructions of 3D scenes. Based on a user-provided textual description
and a 2D bounding box in a reference viewpoint, InseRF generates new objects in
3D scenes. Recently, methods for 3D scene editing have been profoundly
transformed, owing to the use of strong priors of text-to-image diffusion
models in 3D generative modeling. Existing methods are mostly effective in
editing 3D scenes via style and appearance changes or removing existing
objects. Generating new objects, however, remains a challenge for such methods,
which we address in this study. Specifically, we propose grounding the 3D
object insertion to a 2D object insertion in a reference view of the scene. The
2D edit is then lifted to 3D using a single-view object reconstruction method.
The reconstructed object is then inserted into the scene, guided by the priors
of monocular depth estimation methods. We evaluate our method on various 3D
scenes and provide an in-depth analysis of the proposed components. Our
experiments with generative insertion of objects in several 3D scenes indicate
the effectiveness of our method compared to the existing methods. InseRF is
capable of controllable and 3D-consistent object insertion without requiring
explicit 3D information as input. Please visit our project page at
https://mohamad-shahbazi.github.io/inserf.
- Abstract(参考訳): InseRFは3次元シーンのNeRF再構成において生成物挿入のための新しい手法である。
ユーザが提供するテキスト記述と参照視点での2Dバウンディングボックスに基づいて、InseRFは3Dシーンで新しいオブジェクトを生成する。
近年,3次元生成モデルにおけるテキスト・ツー・イメージ拡散モデルの強い事前利用により,3次元シーン編集の手法が大きく変化している。
既存の方法は、スタイルや外観の変更による3Dシーンの編集や、既存のオブジェクトの削除に主に有効である。
しかし, 新たな物体の生成はそのような手法の課題であり, 本研究で論じる。
具体的には,シーンの参照ビューにおける2次元オブジェクト挿入に対する3次元オブジェクト挿入の接地を提案する。
2D編集は、単一ビューオブジェクト再構成法を用いて3Dにリフトされる。
再構成されたオブジェクトはシーンに挿入され、モノキュラー深さ推定法の事前によって導かれる。
提案手法を様々な3次元シーンで評価し,提案するコンポーネントの詳細な分析を行う。
複数の3次元シーンにオブジェクトを生成的に挿入する実験は,既存の手法と比較して,本手法の有効性を示している。
InseRFは、入力として明示的な3D情報を必要とすることなく、制御可能で3D一貫性のあるオブジェクト挿入を行うことができる。
プロジェクトのページはhttps://mohamad-shahbazi.github.io/inserfでどうぞ。
関連論文リスト
- Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors [43.19801974707858]
現在の3D生成技術は、複数の高解像度オブジェクトでシーンを生成するのに苦労している。
ここでは,オープンセット3Dオブジェクトアレンジメントの課題を解決するLay-A-Sceneを紹介する。
本研究では,2次元シーン上にオブジェクトの一貫した投影を見出すことにより,オブジェクトの3次元ポーズや配置を2次元画像から推測する方法を示す。
論文 参考訳(メタデータ) (2024-06-02T09:48:19Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Inpaint3D: 3D Scene Content Generation using 2D Inpainting Diffusion [18.67196713834323]
本稿では、2次元拡散モデルを学習された3次元シーン表現(例えば、NeRF)に蒸留することにより、マスク付き多視点画像を用いたシーンの3次元領域の塗装手法を提案する。
我々は,この2次元拡散モデルが,スコア蒸留サンプリングとNeRF再構成損失の組み合わせを用いてNeRFを最適化する3次元多視点再構成問題において,生成前のモデルとして機能することを示す。
提案手法は,任意の3次元マスキング領域を埋めるコンテンツを生成することができるため,3次元オブジェクト補完,3次元オブジェクト置換,3次元シーン補完も同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T19:30:04Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - Style Agnostic 3D Reconstruction via Adversarial Style Transfer [23.304453155586312]
物体の3次元形状を画像から再構成することは、コンピュータビジョンにおける大きな課題である。
本研究では,背景を持つ画像から3次元物体を識別可能な学習法を提案する。
論文 参考訳(メタデータ) (2021-10-20T21:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。