論文の概要: DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions
- arxiv url: http://arxiv.org/abs/2412.13552v1
- Date: Wed, 18 Dec 2024 07:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:00.290564
- Title: DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions
- Title(参考訳): DragScene: シングルビューのドラッグインストラクションによるインタラクティブな3Dシーン編集
- Authors: Chenghao Gu, Zhenzhe Li, Zhengqi Zhang, Yunpeng Bai, Shuzhao Xie, Zhi Wang,
- Abstract要約: 3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
既存の方法は直感的で局所的な編集に苦労する。
DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
- 参考スコア(独自算出の注目度): 9.31257776760014
- License:
- Abstract: 3D editing has shown remarkable capability in editing scenes based on various instructions. However, existing methods struggle with achieving intuitive, localized editing, such as selectively making flowers blossom. Drag-style editing has shown exceptional capability to edit images with direct manipulation instead of ambiguous text commands. Nevertheless, extending drag-based editing to 3D scenes presents substantial challenges due to multi-view inconsistency. To this end, we introduce DragScene, a framework that integrates drag-style editing with diverse 3D representations. First, latent optimization is performed on a reference view to generate 2D edits based on user instructions. Subsequently, coarse 3D clues are reconstructed from the reference view using a point-based representation to capture the geometric details of the edits. The latent representation of the edited view is then mapped to these 3D clues, guiding the latent optimization of other views. This process ensures that edits are propagated seamlessly across multiple views, maintaining multi-view consistency. Finally, the target 3D scene is reconstructed from the edited multi-view images. Extensive experiments demonstrate that DragScene facilitates precise and flexible drag-style editing of 3D scenes, supporting broad applicability across diverse 3D representations.
- Abstract(参考訳): 3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
しかし、既存の方法は、花を選択的に咲かせるなど、直感的で局所的な編集に苦慮している。
ドラッグスタイルの編集は、曖昧なテキストコマンドではなく、直接操作で画像を編集する特別な機能を示している。
それでも、ドラッグベースの編集を3Dシーンに拡張することは、マルチビューの不整合による大きな課題となる。
この目的のために、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークであるDragSceneを紹介した。
まず、参照ビュー上で潜時最適化を行い、ユーザ指示に基づいて2D編集を生成する。
その後、ポイントベース表現を用いて参照ビューから粗い3Dヒントを再構成し、編集の幾何学的詳細をキャプチャする。
編集されたビューの潜在表現は、これらの3Dヒントにマッピングされ、他のビューの潜在最適化を導く。
このプロセスにより、編集が複数のビューにシームレスに伝達され、複数ビューの一貫性が維持される。
最後に、編集された多視点画像からターゲット3Dシーンを再構成する。
広範囲にわたる実験により、DragSceneは3Dシーンの正確かつ柔軟なドラッグスタイルの編集を容易にし、多様な3D表現の幅広い適用性をサポートすることが示されている。
関連論文リスト
- Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文 参考訳(メタデータ) (2025-01-30T18:51:54Z) - PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - MvDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors [19.950368071777092]
既存の3Dドラッグベースの編集方法は、重要なトポロジ変更の処理や、さまざまなオブジェクトカテゴリにまたがる新しいテクスチャの生成に不足している。
我々は、より柔軟で創造的なドラッグベースの3D編集のための新しいフレームワークMVDrag3Dを紹介する。
MVDrag3Dは3Dドラッグベース編集のための正確で生成的で柔軟なソリューションであることを示す。
論文 参考訳(メタデータ) (2024-10-21T17:59:53Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。