論文の概要: Language-driven Object Fusion into Neural Radiance Fields with
Pose-Conditioned Dataset Updates
- arxiv url: http://arxiv.org/abs/2309.11281v1
- Date: Wed, 20 Sep 2023 13:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 16:12:55.424851
- Title: Language-driven Object Fusion into Neural Radiance Fields with
Pose-Conditioned Dataset Updates
- Title(参考訳): Pose-Conditioned Dataset Updates を用いた言語駆動型物体融合
- Authors: Ka Chun Shum, Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit
Yeung
- Abstract要約: 本稿では,データセット更新によるニューラルラディアンスフィールドを用いたオブジェクト操作のための新しい言語駆動型アプローチを提案する。
本手法は,編集シーンの写実的画像を生成するとともに,3次元再構成やニューラルラディアンスフィールドブレンディングにおいて最先端の手法より優れることを示す。
- 参考スコア(独自算出の注目度): 30.388488170583475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural radiance field is an emerging rendering method that generates
high-quality multi-view consistent images from a neural scene representation
and volume rendering. Although neural radiance field-based techniques are
robust for scene reconstruction, their ability to add or remove objects remains
limited. This paper proposes a new language-driven approach for object
manipulation with neural radiance fields through dataset updates. Specifically,
to insert a new foreground object represented by a set of multi-view images
into a background radiance field, we use a text-to-image diffusion model to
learn and generate combined images that fuse the object of interest into the
given background across views. These combined images are then used for refining
the background radiance field so that we can render view-consistent images
containing both the object and the background. To ensure view consistency, we
propose a dataset updates strategy that prioritizes radiance field training
with camera views close to the already-trained views prior to propagating the
training to remaining views. We show that under the same dataset updates
strategy, we can easily adapt our method for object insertion using data from
text-to-3D models as well as object removal. Experimental results show that our
method generates photorealistic images of the edited scenes, and outperforms
state-of-the-art methods in 3D reconstruction and neural radiance field
blending.
- Abstract(参考訳): neural radiance fieldは、ニューラルネットワークのシーン表現とボリュームレンダリングから高品質なマルチビュー一貫性画像を生成する、新たなレンダリング手法である。
ニューラル・ラジアンス・フィールドに基づく手法はシーンの再構成に頑健であるが、オブジェクトの追加や削除は限られている。
本稿では,ニューラル・ラミアンス・フィールドを用いたオブジェクト操作のための新しい言語駆動アプローチを提案する。
具体的には、背景放射場に複数ビュー画像の集合で表される新しい前景オブジェクトを挿入するために、テキスト・ツー・イメージ拡散モデルを用いて、対象物を対象の背景に融合させた画像の学習と生成を行う。
これらの合成画像は背景輝度フィールドを洗練するために使用され、オブジェクトと背景の両方を含むビュー一貫性のある画像をレンダリングできます。
映像の一貫性を確保するため,我々は,すでにトレーニング済みのビューに近いカメラビューでのラミアンスフィールドトレーニングを優先し,残りのビューにトレーニングを伝播させるデータセット更新戦略を提案する。
我々は,同じデータセット更新戦略の下で,テキストから3Dモデルへのデータとオブジェクト除去を用いて,オブジェクト挿入のためのメソッドを簡単に適用できることを実証した。
実験結果から,本手法は編集シーンの写実的画像を生成するとともに,3次元再構成や神経放射場ブレンディングにおいて最先端の手法より優れていた。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ViFu: Multiple 360$^\circ$ Objects Reconstruction with Clean Background via Visible Part Fusion [7.8788463395442045]
本研究では,異なるタイムスタンプのシーンから,静的でクリーンな背景と360ドル単位のオブジェクトを分割して回収する手法を提案する。
我々の基本的な考え方は、同じ物体の集合を様々な配置で観察することで、あるシーンで見えない部分が他のシーンで見えるようになるというものである。
論文 参考訳(メタデータ) (2024-04-15T02:44:23Z) - SIGNeRF: Scene Integrated Generation for Neural Radiance Fields [1.1037667460077816]
高速かつ制御可能なNeRFシーン編集とシーン統合オブジェクト生成のための新しいアプローチを提案する。
新しい生成的更新戦略により、反復的な最適化を必要とせずに、編集された画像全体の3D一貫性が保証される。
画像拡散モデルの奥行き条件付け機構を利用して,編集の空間的位置を細かく制御する。
論文 参考訳(メタデータ) (2024-01-03T09:46:43Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Generative Deformable Radiance Fields for Disentangled Image Synthesis
of Topology-Varying Objects [52.46838926521572]
3D認識生成モデルは、モノクロ2D画像の集合から3Dニューラル放射場(NeRF)を生成するスーパーブパフォーマンスを実証した。
本研究では, トポロジー変化物体の放射場を非交絡形状と外観変化で合成する生成モデルを提案する。
論文 参考訳(メタデータ) (2022-09-09T08:44:06Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - LOLNeRF: Learn from One Look [22.771493686755544]
本稿では,ニューラルレイディアンス場に基づく生成3次元モデル学習手法を提案する。
既存の手法とは異なり、この目標を達成するためにマルチビューデータを必要としないことを示す。
論文 参考訳(メタデータ) (2021-11-19T01:20:01Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z) - ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。
この手法の核心は,対象物の幾何学的足場の推定である。
合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2021-02-17T16:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。