論文の概要: GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization
- arxiv url: http://arxiv.org/abs/2411.10033v1
- Date: Fri, 15 Nov 2024 08:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:18.321802
- Title: GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization
- Title(参考訳): GSEditPro: 注意に基づくプログレッシブローカライゼーションによる3Dガウス分割編集
- Authors: Yanhao Sun, RunZe Tian, Xiao Han, XinYao Liu, Yan Zhang, Kai Xu,
- Abstract要約: 本稿では,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。
レンダリング中に各ガウス語に意味ラベルを追加するために、注意に基づくプログレッシブなローカライゼーションモジュールを導入する。
これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
- 参考スコア(独自算出の注目度): 11.170354299559998
- License:
- Abstract: With the emergence of large-scale Text-to-Image(T2I) models and implicit 3D representations like Neural Radiance Fields (NeRF), many text-driven generative editing methods based on NeRF have appeared. However, the implicit encoding of geometric and textural information poses challenges in accurately locating and controlling objects during editing. Recently, significant advancements have been made in the editing methods of 3D Gaussian Splatting, a real-time rendering technology that relies on explicit representation. However, these methods still suffer from issues including inaccurate localization and limited manipulation over editing. To tackle these challenges, we propose GSEditPro, a novel 3D scene editing framework which allows users to perform various creative and precise editing using text prompts only. Leveraging the explicit nature of the 3D Gaussian distribution, we introduce an attention-based progressive localization module to add semantic labels to each Gaussian during rendering. This enables precise localization on editing areas by classifying Gaussians based on their relevance to the editing prompts derived from cross-attention layers of the T2I model. Furthermore, we present an innovative editing optimization method based on 3D Gaussian Splatting, obtaining stable and refined editing results through the guidance of Score Distillation Sampling and pseudo ground truth. We prove the efficacy of our method through extensive experiments.
- Abstract(参考訳): 大規模テキスト・トゥ・イメージ(T2I)モデルやNeRF(Neural Radiance Fields)のような暗黙の3次元表現の出現に伴い、多くのNeRFに基づくテキスト駆動生成編集法が登場した。
しかし、幾何学的およびテクスチュラルな情報の暗黙的なエンコーディングは、編集中にオブジェクトの正確な位置決めと制御に困難をもたらす。
近年,明示的表現に依存したリアルタイムレンダリング技術である3D Gaussian Splatting の編集手法が大幅に進歩している。
しかし、これらの手法はいまだに不正確なローカライゼーションや編集操作の制限といった問題に悩まされている。
これらの課題に対処するために,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。
3次元ガウス分布の明示的な性質を生かして、レンダリング中に各ガウス分布にセマンティックラベルを付加するアテンションベースのプログレッシブローカライゼーションモジュールを導入する。
これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
さらに, 3次元ガウス平滑化に基づく新しい編集手法を提案し, スコア蒸留サンプリングと擬似基底真理の指導により, 安定かつ洗練された編集結果を得る。
広範囲な実験により,本手法の有効性を実証する。
関連論文リスト
- TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing [12.50147114409895]
本稿では,テキストによる3Dガウス検索と編集のための体系的アプローチ,すなわちTIGERを提案する。
本稿では,2次元画像編集拡散モデルと多視点拡散モデルを集約したコヒーレントスコア蒸留(CSD)を提案する。
論文 参考訳(メタデータ) (2024-05-23T11:37:17Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - GSEdit: Efficient Text-Guided Editing of 3D Objects via Gaussian Splatting [10.527349772993796]
本稿では,Gaussian Splattingモデルに基づくテキスト誘導型3Dオブジェクト編集パイプラインであるGSEditを紹介する。
本手法では, 3Dオブジェクトの形状や外観の編集を, 消費者ハードウェア上で数分で行うことなく行うことができる。
論文 参考訳(メタデータ) (2024-03-08T08:42:23Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions [90.38892097863814]
本稿では,3Dガウスアンによる3Dシーンをテキストで微妙に編集する,GaussianEditorという体系的フレームワークを提案する。
我々のフレームワークは、トレーニング速度をはるかに速くしながら、従来の方法よりも繊細で正確な3Dシーンの編集を実現できる。
論文 参考訳(メタデータ) (2023-11-27T17:58:21Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。