論文の概要: ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2411.05006v1
- Date: Thu, 07 Nov 2024 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:25.092183
- Title: ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing
- Title(参考訳): プロ編集:高画質の3Dシーン編集に必要なのはシンプルプログレッシブなプログレッシブ
- Authors: Jun-Kun Chen, Yu-Xiong Wang,
- Abstract要約: ProEditは、拡散蒸留によって誘導される高品質な3Dシーン編集のためのフレームワークである。
我々のフレームワークはFOSのサイズを制御し、全体的な編集タスクを複数のサブタスクに分解することで一貫性を低下させる。
ProEditは、様々な場面で最先端の結果を達成し、編集作業に挑戦する。
- 参考スコア(独自算出の注目度): 33.42456524414643
- License:
- Abstract: This paper proposes ProEdit - a simple yet effective framework for high-quality 3D scene editing guided by diffusion distillation in a novel progressive manner. Inspired by the crucial observation that multi-view inconsistency in scene editing is rooted in the diffusion model's large feasible output space (FOS), our framework controls the size of FOS and reduces inconsistency by decomposing the overall editing task into several subtasks, which are then executed progressively on the scene. Within this framework, we design a difficulty-aware subtask decomposition scheduler and an adaptive 3D Gaussian splatting (3DGS) training strategy, ensuring high quality and efficiency in performing each subtask. Extensive evaluation shows that our ProEdit achieves state-of-the-art results in various scenes and challenging editing tasks, all through a simple framework without any expensive or sophisticated add-ons like distillation losses, components, or training procedures. Notably, ProEdit also provides a new way to control, preview, and select the "aggressivity" of editing operation during the editing process.
- Abstract(参考訳): 本稿では, 拡散蒸留法により誘導される高品質な3Dシーン編集のための簡易かつ効果的なフレームワークProEditを提案する。
シーン編集におけるマルチビューの不整合性は拡散モデルの大規模な実行可能出力空間(FOS)に根ざしているという決定的な観察にインスパイアされた我々のフレームワークは、FOSのサイズを制御し、全体的な編集タスクを複数のサブタスクに分解することで不整合を低減する。
本フレームワークでは,各サブタスクの実行において高い品質と効率を確保するために,難易度を考慮したサブタスク分解スケジューラと適応型3次元ガウススプレイティング(3DGS)トレーニング戦略を設計する。
広範囲な評価から,我々のProEditは,蒸留損失やコンポーネント,トレーニング手順など,高価なあるいは洗練されたアドオンを伴わないシンプルなフレームワークを通じて,さまざまな場面で最先端の成果を達成し,編集作業に挑戦することを示す。
特にProEditは、編集プロセス中の編集操作の"攻撃性"を制御、プレビュー、選択するための新しい方法を提供する。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TrAME: Trajectory-Anchored Multi-View Editing for Text-Guided 3D Gaussian Splatting Manipulation [35.951718189386845]
TAS(Trajectory-Anchored Scheme)による複数ビューの整合性を保証するプログレッシブな3D編集戦略を提案する。
TASは2Dビュー編集と3D更新の間に密結合された反復プロセスを促進し、テキスト・ツー・イメージ・プロセスから得られるエラーの蓄積を防ぐ。
本稿では,2次元ビューの編集中に,ソースブランチからのクロスビューセマンティクスと幾何参照を利用して,対象ブランチからアライメントされたビューを出力する,調整不要なビュー一貫性注意制御(VCAC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:06:58Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。