Fugu-MT 論文翻訳(概要): GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing

論文の概要: GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing

arxiv url: http://arxiv.org/abs/2403.08733v4
Date: Sun, 14 Jul 2024 10:31:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 01:35:33.482273
Title: GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing
Title（参考訳）: GaussCtrl: テキスト駆動型3Dガウス分割編集
Authors: Jing Wu, Jia-Wang Bian, Xinghui Li, Guangrun Wang, Ian Reid, Philip Torr, Victor Adrian Prisacariu,
Abstract要約: GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
参考スコア（独自算出の注目度）: 38.948892064761914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images' latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods.
Abstract（参考訳）: 本稿では,3Dガウススティング(3DGS)によって再構成された3Dシーンをテキスト駆動で編集するGussCtrlを提案する。まず3DGSを用いて画像の集合をレンダリングし、入力プロンプトに基づいて事前学習した2D拡散モデル(ControlNet)を用いて編集し、3Dモデルを最適化する。これにより、以前のように3Dモデルを更新しながら、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集することが可能になる。これにより、より高速な編集が可能となり、視覚的品質も向上する。これは2つの条件によって達成される。 (a)自然に一貫した深度マップを活用することにより、多視点画像間の幾何的整合性を実現する深度条件付き編集。 (b)注目に基づく遅延コードアライメントは、画像の潜在表現間の自己および横断的な注目を通して、複数の参照ビューに編集を条件付けることにより、編集画像の外観を統一する。実験により,従来の最先端手法よりも高速な編集と視覚効果が得られた。

関連論文リスト

SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。 SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文参考訳（メタデータ） (2024-06-25T09:17:35Z)
ICE-G: Image Conditional Editing of 3D Gaussian Splats [45.112689255145625]
単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。我々の技術はまず編集画像を分割し、選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。
論文参考訳（メタデータ） (2024-06-12T17:59:52Z)
DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文参考訳（メタデータ） (2024-05-09T14:34:05Z)
DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文参考訳（メタデータ） (2024-04-29T17:59:30Z)
View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文参考訳（メタデータ） (2024-03-18T15:22:09Z)
Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文参考訳（メタデータ） (2024-03-18T06:18:59Z)
GSEdit: Efficient Text-Guided Editing of 3D Objects via Gaussian Splatting [10.527349772993796]
本稿では,Gaussian Splattingモデルに基づくテキスト誘導型3Dオブジェクト編集パイプラインであるGSEditを紹介する。本手法では, 3Dオブジェクトの形状や外観の編集を, 消費者ハードウェア上で数分で行うことなく行うことができる。
論文参考訳（メタデータ） (2024-03-08T08:42:23Z)
Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文参考訳（メタデータ） (2024-02-22T18:50:18Z)
Learning Naturally Aggregated Appearance for Efficient 3D Editing [90.57414218888536]
カラーフィールドは、標準画像(canonical image)とも呼ばれる、明示的な2次元の外観アグリゲーションとして学習する。テクスチャクエリのために3Dポイントを2Dピクセルにマッピングする投影場を標準画像に補完する。提案手法は,既存のNeRFベースの編集手法に比べて,編集1回あたり20倍高速であることを示す。
論文参考訳（メタデータ） (2023-12-11T18:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。