論文の概要: ControlEdit: A MultiModal Local Clothing Image Editing Method
- arxiv url: http://arxiv.org/abs/2409.14720v1
- Date: Mon, 23 Sep 2024 05:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:23:54.405843
- Title: ControlEdit: A MultiModal Local Clothing Image Editing Method
- Title(参考訳): ControlEdit: マルチモーダルな局所的な画像編集方法
- Authors: Di Cheng, YingJie Shi, ShiXin Sun, JiaFu Zhang, WeiJing Wang, Yu Liu,
- Abstract要約: マルチモーダル・衣料品画像編集(マルチモーダル・衣料品画像編集、英: Multimodal clothing image editing)とは、テキスト記述や視覚画像を制御条件として用いた衣服画像の精密な調整と修正をいう。
衣料品画像のマルチモーダルな局所的塗り絵に衣料品画像の編集を転送する新しい画像編集方法である制御編集を提案する。
- 参考スコア(独自算出の注目度): 3.6604114810930946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal clothing image editing refers to the precise adjustment and modification of clothing images using data such as textual descriptions and visual images as control conditions, which effectively improves the work efficiency of designers and reduces the threshold for user design. In this paper, we propose a new image editing method ControlEdit, which transfers clothing image editing to multimodal-guided local inpainting of clothing images. We address the difficulty of collecting real image datasets by leveraging the self-supervised learning approach. Based on this learning approach, we extend the channels of the feature extraction network to ensure consistent clothing image style before and after editing, and we design an inverse latent loss function to achieve soft control over the content of non-edited areas. In addition, we adopt Blended Latent Diffusion as the sampling method to make the editing boundaries transition naturally and enforce consistency of non-edited area content. Extensive experiments demonstrate that ControlEdit surpasses baseline algorithms in both qualitative and quantitative evaluations.
- Abstract(参考訳): マルチモーダル衣料画像編集は、テキスト記述や視覚画像などのデータを制御条件として使用することで、デザイナーの作業効率を効果的に向上し、ユーザデザインの閾値を下げる。
本稿では,衣料品画像のマルチモーダルな局所的塗り絵に衣料品画像の編集を転送する新しい画像編集手法であるControlEditを提案する。
我々は,自己教師付き学習アプローチを活用することで,実画像データセットの収集の難しさに対処する。
この学習手法に基づいて,編集前後の着衣画像スタイルの整合性を確保するため,特徴抽出ネットワークのチャネルを拡張し,非編集領域の内容に対するソフト制御を実現するために,逆潜伏損失関数を設計する。
さらに,Blended Latent Diffusionをサンプリング手法として採用し,編集境界を自然に遷移させ,非編集領域の内容の一貫性を強制する。
大規模な実験により、ControlEditは定性評価と定量的評価の両方でベースラインアルゴリズムを超越していることが示された。
関連論文リスト
- PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。