論文の概要: TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts
- arxiv url: http://arxiv.org/abs/2401.14828v3
- Date: Thu, 25 Apr 2024 06:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 21:08:18.276899
- Title: TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts
- Title(参考訳): TIP-Editor:テキストプロンプと画像プロンプの両方に追随する正確な3Dエディタ
- Authors: Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan,
- Abstract要約: TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
- 参考スコア(独自算出の注目度): 119.84478647745658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven 3D scene editing has gained significant attention owing to its convenience and user-friendliness. However, existing methods still lack accurate control of the specified appearance and location of the editing result due to the inherent limitations of the text description. To this end, we propose a 3D scene editing framework, TIPEditor, that accepts both text and image prompts and a 3D bounding box to specify the editing region. With the image prompt, users can conveniently specify the detailed appearance/style of the target content in complement to the text description, enabling accurate control of the appearance. Specifically, TIP-Editor employs a stepwise 2D personalization strategy to better learn the representation of the existing scene and the reference image, in which a localization loss is proposed to encourage correct object placement as specified by the bounding box. Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as the 3D representation to facilitate local editing while keeping the background unchanged. Extensive experiments have demonstrated that TIP-Editor conducts accurate editing following the text and image prompts in the specified bounding box region, consistently outperforming the baselines in editing quality, and the alignment to the prompts, qualitatively and quantitatively.
- Abstract(参考訳): テキスト駆動の3Dシーン編集は、その利便性とユーザフレンドリさから大きな注目を集めている。
しかし, 既存の手法では, テキスト記述に固有の制約があるため, 特定の外観や編集結果の位置を正確に制御できない。
そこで本研究では,テキストと画像のプロンプトを受け入れる3Dシーン編集フレームワークTIPEditorと,編集領域を指定する3Dバウンディングボックスを提案する。
画像プロンプトにより、ユーザは、テキスト記述を補完するターゲットコンテンツの詳細な外観/スタイルを便利に指定でき、その外観を正確に制御できる。
具体的には、TIP-Editorは、既存のシーンと参照画像の表現をよりよく学習するために、段階的に2Dパーソナライズ戦略を採用しており、そこでは、バウンディングボックスが指定した正しいオブジェクト配置を促進するために、ローカライズ損失が提案されている。
さらに、TIPEditorは、明示的で柔軟な3Dガウススプラッティングを3D表現として利用し、バックグラウンドを一定に保ちながらローカル編集を容易にする。
TIP-Editorは、テキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行い、編集品質のベースラインと、そのプロンプトへのアライメントを質的かつ定量的に一貫して上回ることを示した。
関連論文リスト
- GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization [11.170354299559998]
本稿では,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。
レンダリング中に各ガウス語に意味ラベルを追加するために、注意に基づくプログレッシブなローカライゼーションモジュールを導入する。
これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
論文 参考訳(メタデータ) (2024-11-15T08:25:14Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Cut-and-Paste: Subject-Driven Video Editing with Attention Control [47.76519877672902]
本稿では,テキストプロンプトと追加参照画像の指導のもと,実単語のセマンティックビデオ編集のための「カット・アンド・ペースト」という新しいフレームワークを提案する。
現在の方法と比較すると、メソッドのプロセス全体は編集対象のソースオブジェクトをカットし、参照イメージによって提供されるターゲットオブジェクトをカットする。
論文 参考訳(メタデータ) (2023-11-20T12:00:06Z) - DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [115.07896366760876]
テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。
DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
論文 参考訳(メタデータ) (2023-06-23T11:53:43Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DE-Net: Dynamic Text-guided Image Editing Adversarial Networks [82.67199573030513]
様々な編集要求に対して動的に空間的・チャネル的に操作する動的編集ブロック(DEBlock)を提案する。
我々のDE-Netは優れた性能を実現し、より効果的かつ正確にソース画像を操作する。
論文 参考訳(メタデータ) (2022-06-02T17:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。