論文の概要: Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates
- arxiv url: http://arxiv.org/abs/2309.11281v3
- Date: Sun, 31 Mar 2024 16:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:34:46.274456
- Title: Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates
- Title(参考訳): Pose-Conditioned Dataset Updates を用いた言語駆動型物体融合
- Authors: Ka Chun Shum, Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung,
- Abstract要約: 本稿では,データセット更新によるニューラルラディアンスフィールドを用いたオブジェクト操作のための新しい言語駆動型アプローチを提案する。
本手法は,編集シーンの写実的画像を生成するとともに,3次元再構成やニューラルラディアンスフィールドブレンディングにおいて最先端の手法より優れることを示す。
- 参考スコア(独自算出の注目度): 28.325117929622312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural radiance field is an emerging rendering method that generates high-quality multi-view consistent images from a neural scene representation and volume rendering. Although neural radiance field-based techniques are robust for scene reconstruction, their ability to add or remove objects remains limited. This paper proposes a new language-driven approach for object manipulation with neural radiance fields through dataset updates. Specifically, to insert a new foreground object represented by a set of multi-view images into a background radiance field, we use a text-to-image diffusion model to learn and generate combined images that fuse the object of interest into the given background across views. These combined images are then used for refining the background radiance field so that we can render view-consistent images containing both the object and the background. To ensure view consistency, we propose a dataset updates strategy that prioritizes radiance field training with camera views close to the already-trained views prior to propagating the training to remaining views. We show that under the same dataset updates strategy, we can easily adapt our method for object insertion using data from text-to-3D models as well as object removal. Experimental results show that our method generates photorealistic images of the edited scenes, and outperforms state-of-the-art methods in 3D reconstruction and neural radiance field blending.
- Abstract(参考訳): ニューラル・ラディアンス・フィールド(Neural radiance Field)は、ニューラル・シーンの表現とボリューム・レンダリングから高品質なマルチビュー・一貫性のある画像を生成する新しいレンダリング法である。
ニューラルラディアンス場に基づく技術はシーン再構成には堅牢であるが、物体の追加や除去の能力は限られている。
本稿では,データセット更新によるニューラルラディアンスフィールドを用いたオブジェクト操作のための新しい言語駆動型アプローチを提案する。
具体的には、背景放射場に複数ビュー画像の集合で表される新しい前景オブジェクトを挿入するために、テキスト・ツー・イメージ拡散モデルを用いて、対象物を対象の背景に融合させる合成画像の学習と生成を行う。
これらの組み合わせされた画像は、背景放射場を精製するために使用され、オブジェクトと背景の両方を含むビュー一貫性のある画像を描画することができる。
視界の整合性を確保するために,既存の視界に近いカメラビューによる照準場訓練を優先したデータセット更新戦略を提案する。
我々は,同じデータセット更新戦略の下で,テキストから3Dモデルへのデータとオブジェクト除去を用いて,オブジェクト挿入のためのメソッドを簡単に適用できることを実証した。
実験結果から,本手法は編集シーンの写実的画像を生成するとともに,3次元再構成やニューラルラディアンスフィールドブレンディングにおいて最先端の手法より優れることがわかった。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ViFu: Multiple 360$^\circ$ Objects Reconstruction with Clean Background via Visible Part Fusion [7.8788463395442045]
本研究では,異なるタイムスタンプのシーンから,静的でクリーンな背景と360ドル単位のオブジェクトを分割して回収する手法を提案する。
我々の基本的な考え方は、同じ物体の集合を様々な配置で観察することで、あるシーンで見えない部分が他のシーンで見えるようになるというものである。
論文 参考訳(メタデータ) (2024-04-15T02:44:23Z) - SIGNeRF: Scene Integrated Generation for Neural Radiance Fields [1.1037667460077816]
高速かつ制御可能なNeRFシーン編集とシーン統合オブジェクト生成のための新しいアプローチを提案する。
新しい生成的更新戦略により、反復的な最適化を必要とせずに、編集された画像全体の3D一貫性が保証される。
画像拡散モデルの奥行き条件付け機構を利用して,編集の空間的位置を細かく制御する。
論文 参考訳(メタデータ) (2024-01-03T09:46:43Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Generative Deformable Radiance Fields for Disentangled Image Synthesis
of Topology-Varying Objects [52.46838926521572]
3D認識生成モデルは、モノクロ2D画像の集合から3Dニューラル放射場(NeRF)を生成するスーパーブパフォーマンスを実証した。
本研究では, トポロジー変化物体の放射場を非交絡形状と外観変化で合成する生成モデルを提案する。
論文 参考訳(メタデータ) (2022-09-09T08:44:06Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - LOLNeRF: Learn from One Look [22.771493686755544]
本稿では,ニューラルレイディアンス場に基づく生成3次元モデル学習手法を提案する。
既存の手法とは異なり、この目標を達成するためにマルチビューデータを必要としないことを示す。
論文 参考訳(メタデータ) (2021-11-19T01:20:01Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z) - ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。
この手法の核心は,対象物の幾何学的足場の推定である。
合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2021-02-17T16:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。