論文の概要: DisCo3D: Distilling Multi-View Consistency for 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2508.01684v1
- Date: Sun, 03 Aug 2025 09:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.006255
- Title: DisCo3D: Distilling Multi-View Consistency for 3D Scene Editing
- Title(参考訳): DisCo3D:3Dシーン編集のためのマルチビュー一貫性を拡張
- Authors: Yufeng Chi, Huimin Ma, Kafeng Wang, Jianmin Li,
- Abstract要約: 我々は,従来の3D一貫性を2Dエディタに蒸留する新しいフレームワークである textbfDisCo3D を提案する。
まず,シーン適応のためのマルチビュー入力を用いて3Dジェネレータを微調整し,整合蒸留により2Dエディターを訓練する。
実験の結果、DisCo3Dは安定したマルチビューの一貫性を実現し、編集品質において最先端の手法より優れていた。
- 参考スコア(独自算出の注目度): 12.383291424229448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models have demonstrated remarkable progress in 2D image generation and editing, extending these capabilities to 3D editing remains challenging, particularly in maintaining multi-view consistency. Classical approaches typically update 3D representations through iterative refinement based on a single editing view. However, these methods often suffer from slow convergence and blurry artifacts caused by cross-view inconsistencies. Recent methods improve efficiency by propagating 2D editing attention features, yet still exhibit fine-grained inconsistencies and failure modes in complex scenes due to insufficient constraints. To address this, we propose \textbf{DisCo3D}, a novel framework that distills 3D consistency priors into a 2D editor. Our method first fine-tunes a 3D generator using multi-view inputs for scene adaptation, then trains a 2D editor through consistency distillation. The edited multi-view outputs are finally optimized into 3D representations via Gaussian Splatting. Experimental results show DisCo3D achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality.
- Abstract(参考訳): 拡散モデルは2次元画像の生成と編集において顕著な進歩を見せているが、これらの能力を3次元編集に拡張することは、特にマルチビューの一貫性を維持する上では困難である。
古典的なアプローチは、通常、1つの編集ビューに基づいて反復的な洗練された3D表現を更新する。
しかし、これらの手法は、しばしばクロスビューの不整合によって引き起こされる緩やかな収束とぼやけた成果物に悩まされる。
近年の手法では2次元編集の注意点の伝播による効率向上が図られているが, 複雑なシーンでは制約が不十分なため, 微細な不整合や故障モードを呈している。
そこで本研究では,従来の3D一貫性を2Dエディタに蒸留する新しいフレームワークである \textbf{DisCo3D} を提案する。
まず,シーン適応のためのマルチビュー入力を用いて3Dジェネレータを微調整し,整合蒸留により2Dエディターを訓練する。
編集されたマルチビュー出力は、最終的にガウススプラッティングを介して3次元表現に最適化される。
実験の結果、DisCo3Dは安定したマルチビューの一貫性を実現し、編集品質において最先端の手法より優れていた。
関連論文リスト
- Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images [72.70883914827687]
Tailor3Dは、編集可能なデュアルサイドイメージからカスタマイズされた3Dアセットを作成する新しいパイプラインである。
3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-08T17:59:55Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Generic 3D Diffusion Adapter Using Controlled Multi-View Editing [44.99706994361726]
オープンドメインの3Dオブジェクト合成は、限られたデータと高い計算複雑性のために、画像合成に遅れを取っている。
本稿では,SDEditの3次元版として機能するMVEditを提案する。
MVEditはトレーニング不要の3Dアダプタを通じて3D一貫性を実現し、最後の2Dビューをコヒーレントな3D表現に変換する。
論文 参考訳(メタデータ) (2024-03-18T17:59:09Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。