論文の概要: Towards a Training Free Approach for 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2412.12766v1
- Date: Tue, 17 Dec 2024 10:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:39.093593
- Title: Towards a Training Free Approach for 3D Scene Editing
- Title(参考訳): 3次元シーン編集のための学習自由アプローチに向けて
- Authors: Vivek Madhavaram, Shivangana Rawat, Chaitanya Devaguptapu, Charu Sharma, Manohar Kaul,
- Abstract要約: 近年のNeRF編集手法は,2次元拡散モデルの展開と3次元空間への投影による編集操作を利用する。
編集位置を特定するには、テキストのプロンプトとともに、強力な位置先を必要とする。
メッシュ表現をNeRFの代用として,学習自由な編集方法であるFreeEditを提案する。
- 参考スコア(独自算出の注目度): 7.631288333466647
- License:
- Abstract: Text driven diffusion models have shown remarkable capabilities in editing images. However, when editing 3D scenes, existing works mostly rely on training a NeRF for 3D editing. Recent NeRF editing methods leverages edit operations by deploying 2D diffusion models and project these edits into 3D space. They require strong positional priors alongside text prompt to identify the edit location. These methods are operational on small 3D scenes and are more generalized to particular scene. They require training for each specific edit and cannot be exploited in real-time edits. To address these limitations, we propose a novel method, FreeEdit, to make edits in training free manner using mesh representations as a substitute for NeRF. Training-free methods are now a possibility because of the advances in foundation model's space. We leverage these models to bring a training-free alternative and introduce solutions for insertion, replacement and deletion. We consider insertion, replacement and deletion as basic blocks for performing intricate edits with certain combinations of these operations. Given a text prompt and a 3D scene, our model is capable of identifying what object should be inserted/replaced or deleted and location where edit should be performed. We also introduce a novel algorithm as part of FreeEdit to find the optimal location on grounding object for placement. We evaluate our model by comparing it with baseline models on a wide range of scenes using quantitative and qualitative metrics and showcase the merits of our method with respect to others.
- Abstract(参考訳): テキスト駆動拡散モデルは、画像の編集において顕著な能力を示している。
しかし、3Dシーンを編集する場合、既存の作品は、主に3D編集のためのNeRFのトレーニングに依存している。
近年のNeRF編集手法は,2次元拡散モデルの展開と3次元空間へのプロジェクションによる編集操作を利用する。
編集位置を特定するには、テキストのプロンプトとともに、強力な位置先を必要とする。
これらの方法は小さな3Dシーンで動作し、特定のシーンにより一般化される。
個々の編集のトレーニングが必要で、リアルタイム編集では利用できない。
これらの制約に対処するため,NeRFの代替としてメッシュ表現を用いて自由な編集を行う新しい手法であるFreeEditを提案する。
基礎モデルの空間が進歩しているため、現在、トレーニングフリーな手法が考えられる。
これらのモデルを活用して、トレーニング不要の代替手段を導入し、挿入、置換、削除のソリューションを導入します。
挿入、置換、削除は、これらの操作の特定の組み合わせで複雑な編集を行うための基本的なブロックであると考えている。
テキストプロンプトと3Dシーンを与えられたモデルでは、どのオブジェクトを挿入、置換、削除すべきか、編集すべき場所を特定できます。
また,配置対象の最適位置を求めるために,FreeEditの一部として新しいアルゴリズムを導入する。
定量的,定性的な指標を用いて,幅広い場面のベースラインモデルと比較し,本手法の有効性を示す。
関連論文リスト
- PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion [13.744253074367885]
本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。
提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。
最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:38:51Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields [14.803266838721864]
Seal-3Dでは、ユーザーは幅広いNeRFに似たバックボーンで、ピクセルレベルの自由な方法でNeRFモデルを編集し、編集効果を即座にプレビューすることができる。
様々な編集タイプを展示するために、NeRF編集システムを構築している。
論文 参考訳(メタデータ) (2023-07-27T18:08:19Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions [109.51624993088687]
テキストインストラクションを用いたNeRFシーンの編集手法を提案する。
シーンのNeRFと再構成に使用される画像の収集を前提として,画像条件の拡散モデル(InstructPix2Pix)を用いてシーンを最適化しながら入力画像を反復的に編集する。
提案手法は,大規模で現実的なシーンの編集が可能であり,従来よりもリアルで目標とした編集を実現できることを実証する。
論文 参考訳(メタデータ) (2023-03-22T17:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。