論文の概要: 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.18424v1
- Date: Tue, 28 May 2024 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:11:13.226657
- Title: 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
- Title(参考訳): 3DitScene: 言語誘導の散らばったガウシアンスプレイティングであらゆるシーンを編集する
- Authors: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang,
- Abstract要約: 既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
- 参考スコア(独自算出の注目度): 100.94916668527544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.
- Abstract(参考訳): シーン画像編集はエンターテイメント、写真、広告デザインに不可欠である。
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
これにより、粒度の異なる3Dレベルのシーンを効果的に制御し、操作するための統一的なアプローチが欠如する。
本研究では,2次元から3次元へのシームレスな編集が可能で,シーン構成や個々のオブジェクトを正確に制御できる言語誘導型ガウス分割を利用した,新規で統一されたシーン編集フレームワークである3DitSceneを提案する。
まず,3次元ガウスを前駆的手法と最適化手法により改良した手法を取り入れた。
CLIPの言語機能は、オブジェクトの切り離しのための3D幾何学にセマンティクスを導入する。
3DitSceneは、散らばったガウシアンによって、グローバルレベルと個人のレベルでの操作を可能にし、創造的な表現を革新し、シーンやオブジェクトのコントロールを権限化します。
映像編集における3DitSceneの有効性と有効性を示す実験結果を得た。
コードとオンラインのデモはプロジェクトのホームページで見ることができる。
関連論文リスト
- EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - SIn-NeRF2NeRF: Editing 3D Scenes with Instructions through Segmentation and Inpainting [0.3119157043062931]
Instruct-NeRF2NeRF(in2n)は、テキストプロンプトを用いてNeRF(Neural Radiance Field)からなる3Dシーンの編集を可能にする有望な方法である。
本研究では,3次元シーン内におけるオブジェクトの幾何学的変化を,シーンから分離したオブジェクトを選択的に編集することで実現する。
論文 参考訳(メタデータ) (2024-08-23T02:20:42Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z) - OBJECT 3DIT: Language-guided 3D-aware Image Editing [27.696507467754877]
既存の画像編集ツールは、画像が投影される基礎となる3D幾何学を無視している。
画像中のオブジェクトは、下層の3Dシーンの文脈で、言語命令に従って編集されるべきである。
我々は,手続き的に生成された3Dシーンから作成した400Kの編集例からなるデータセットOBJECTをリリースした。
私たちのモデルでは、周囲の物体、表面、照明条件、影、物理的に表現可能な物体構成など、シーン全体の3D構成を理解する能力が印象的です。
論文 参考訳(メタデータ) (2023-07-20T17:53:46Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。