論文の概要: TexSliders: Diffusion-Based Texture Editing in CLIP Space
- arxiv url: http://arxiv.org/abs/2405.00672v1
- Date: Wed, 1 May 2024 17:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 14:57:49.243808
- Title: TexSliders: Diffusion-Based Texture Editing in CLIP Space
- Title(参考訳): TexSliders: CLIP空間での拡散ベースのテクスチャ編集
- Authors: Julia Guerrero-Viu, Milos Hasan, Arthur Roullier, Midhun Harikumar, Yiwei Hu, Paul Guerrero, Diego Gutierrez, Belen Masia, Valentin Deschaintre,
- Abstract要約: 既存の編集手法を分析し,テクスチャに直接適用できないことを示す。
拡散生成を条件にCLIP画像埋め込みを操作する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.449209402077276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have enabled intuitive image creation and manipulation using natural language. In particular, diffusion models have recently shown remarkable results for natural image editing. In this work, we propose to apply diffusion techniques to edit textures, a specific class of images that are an essential part of 3D content creation pipelines. We analyze existing editing methods and show that they are not directly applicable to textures, since their common underlying approach, manipulating attention maps, is unsuitable for the texture domain. To address this, we propose a novel approach that instead manipulates CLIP image embeddings to condition the diffusion generation. We define editing directions using simple text prompts (e.g., "aged wood" to "new wood") and map these to CLIP image embedding space using a texture prior, with a sampling-based approach that gives us identity-preserving directions in CLIP space. To further improve identity preservation, we project these directions to a CLIP subspace that minimizes identity variations resulting from entangled texture attributes. Our editing pipeline facilitates the creation of arbitrary sliders using natural language prompts only, with no ground-truth annotated data necessary.
- Abstract(参考訳): 生成モデルは、自然言語を用いた直感的な画像生成と操作を可能にした。
特に拡散モデルは、最近、自然画像編集において顕著な結果を示した。
本研究では,テクスチャの編集に拡散技術を適用することを提案する。
既存の編集手法を解析し,テクスチャに対して直接適用できないことを示す。
そこで本研究では,CLIP画像の埋め込みを制御して拡散生成を条件付ける手法を提案する。
簡単なテキストプロンプト(例えば、"aged wood"から"new wood")を使って編集方向を定義し、これらをCLIP画像埋め込み空間に事前にテクスチャを用いてマッピングする。
これらの方向をCLIPサブスペースに投影し、絡み合ったテクスチャ属性から生じるアイデンティティの変動を最小限に抑える。
編集パイプラインは,自然言語プロンプトのみを用いた任意のスライダの作成を容易にする。
関連論文リスト
- TextureDiffusion: Target Prompt Disentangled Editing for Various Texture Transfer [32.53299128227546]
各種テクスチャ転送に適用可能なチューニング不要な画像編集手法であるTextureDiffusionを提案する。
自己アテンションのクエリ機能と残留ブロックの機能は、入力画像の構造を保存するために使用される。
背景を維持するために、自己注意結果と中間潜伏者をブレンドする編集ローカライゼーション手法を導入する。
論文 参考訳(メタデータ) (2024-09-15T04:34:38Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Text2LIVE: Text-Driven Layered Image and Video Editing [13.134513605107808]
自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
論文 参考訳(メタデータ) (2022-04-05T21:17:34Z) - Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。
我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。
画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文 参考訳(メタデータ) (2021-11-29T18:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。