論文の概要: Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information
- arxiv url: http://arxiv.org/abs/2503.11601v1
- Date: Fri, 14 Mar 2025 17:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:58.115940
- Title: Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information
- Title(参考訳): 補足情報とコンセンサス情報を用いた3次元ガウス分割編集の高速化
- Authors: Xuanqi Zhang, Jieun Lee, Chris Joslin, Wonsook Lee,
- Abstract要約: テキスト誘導型3Dガウス版(3DGS)編集の視覚的忠実度と一貫性を向上させるための新しいフレームワークを提案する。
本手法は,最先端手法と比較して,レンダリング品質とビューの整合性に優れた性能を示す。
- 参考スコア(独自算出の注目度): 4.956066467858058
- License:
- Abstract: We present a novel framework for enhancing the visual fidelity and consistency of text-guided 3D Gaussian Splatting (3DGS) editing. Existing editing approaches face two critical challenges: inconsistent geometric reconstructions across multiple viewpoints, particularly in challenging camera positions, and ineffective utilization of depth information during image manipulation, resulting in over-texture artifacts and degraded object boundaries. To address these limitations, we introduce: 1) A complementary information mutual learning network that enhances depth map estimation from 3DGS, enabling precise depth-conditioned 3D editing while preserving geometric structures. 2) A wavelet consensus attention mechanism that effectively aligns latent codes during the diffusion denoising process, ensuring multi-view consistency in the edited results. Through extensive experimentation, our method demonstrates superior performance in rendering quality and view consistency compared to state-of-the-art approaches. The results validate our framework as an effective solution for text-guided editing of 3D scenes.
- Abstract(参考訳): テキスト誘導型3Dガウス版(3DGS)編集の視覚的忠実度と一貫性を向上させるための新しいフレームワークを提案する。
既存の編集アプローチは、複数の視点、特に挑戦的なカメラ位置における不整合幾何再構成と、画像操作時の深度情報の有効利用という2つの重要な課題に直面している。
これらの制限に対処するために、私たちは次のようなものを紹介します。
1)3DGSからの深度マップ推定を強化し,幾何学的構造を維持しつつ正確な深度条件付き3D編集を可能にする補完情報相互学習ネットワーク。
2)拡散復調過程において遅延符号を効果的に整列させるウェーブレット・コンセンサス・アテンション・アテンション・メカニズムにより,編集結果の多視点整合性を確保する。
大規模な実験を通じて,本手法は最先端の手法と比較して,レンダリング品質とビューの整合性に優れた性能を示す。
その結果,本フレームワークは3次元シーンのテキストガイド編集に有効であることがわかった。
関連論文リスト
- TrAME: Trajectory-Anchored Multi-View Editing for Text-Guided 3D Gaussian Splatting Manipulation [35.951718189386845]
TAS(Trajectory-Anchored Scheme)による複数ビューの整合性を保証するプログレッシブな3D編集戦略を提案する。
TASは2Dビュー編集と3D更新の間に密結合された反復プロセスを促進し、テキスト・ツー・イメージ・プロセスから得られるエラーの蓄積を防ぐ。
本稿では,2次元ビューの編集中に,ソースブランチからのクロスビューセマンティクスと幾何参照を利用して,対象ブランチからアライメントされたビューを出力する,調整不要なビュー一貫性注意制御(VCAC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:06:58Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Reference-Based 3D-Aware Image Editing with Triplanes [15.222454412573455]
GAN(Generative Adversarial Networks)は、高品質な画像生成と、潜伏空間を操作することで実際の画像編集のための強力なツールとして登場した。
GANの最近の進歩には、EG3Dのような3次元認識モデルが含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャを備えている。
本研究では,先進的な参照ベース編集における三面体空間の有効性を探索し,実証することにより,このギャップを解消する。
論文 参考訳(メタデータ) (2024-04-04T17:53:33Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。