論文の概要: EditP23: 3D Editing via Propagation of Image Prompts to Multi-View
- arxiv url: http://arxiv.org/abs/2506.20652v1
- Date: Wed, 25 Jun 2025 17:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.892437
- Title: EditP23: 3D Editing via Propagation of Image Prompts to Multi-View
- Title(参考訳): EditP23: マルチビューへのイメージプロンプトのプロパゲーションによる3D編集
- Authors: Roi Bar-On, Dana Cohen-Bar, Daniel Cohen-Or,
- Abstract要約: 本研究では,マスクのない3D編集手法であるEditP23を提案する。
テキストベースのプロンプトや明示的な空間マスクに依存する従来のアプローチとは対照的に、EditP23は2つのイメージを条件付けすることで直感的な編集を可能にする。
- 参考スコア(独自算出の注目度): 49.5776584729283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EditP23, a method for mask-free 3D editing that propagates 2D image edits to multi-view representations in a 3D-consistent manner. In contrast to traditional approaches that rely on text-based prompting or explicit spatial masks, EditP23 enables intuitive edits by conditioning on a pair of images: an original view and its user-edited counterpart. These image prompts are used to guide an edit-aware flow in the latent space of a pre-trained multi-view diffusion model, allowing the edit to be coherently propagated across views. Our method operates in a feed-forward manner, without optimization, and preserves the identity of the original object, in both structure and appearance. We demonstrate its effectiveness across a range of object categories and editing scenarios, achieving high fidelity to the source while requiring no manual masks.
- Abstract(参考訳): 本研究では,マスクのない3D編集手法であるEditP23を提案する。
テキストベースのプロンプトや明示的な空間マスクに依存する従来のアプローチとは対照的に、EditP23は、元のビューとそのユーザ編集されたイメージを条件付けすることで直感的な編集を可能にする。
これらの画像プロンプトは、事前訓練された多視点拡散モデルの潜在空間における編集認識フローを誘導するために使用され、その編集をビュー間でコヒーレントに伝播させることができる。
提案手法は,最適化せずにフィードフォワード方式で動作し,構造と外観の両方において,元のオブジェクトの同一性を保持する。
対象のカテゴリや編集シナリオにまたがって有効性を実証し,手動マスクを必要とせず,ソースへの忠実度を高めた。
関連論文リスト
- PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。