論文の概要: Text-to-image Editing by Image Information Removal
- arxiv url: http://arxiv.org/abs/2305.17489v1
- Date: Sat, 27 May 2023 14:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:58:22.430796
- Title: Text-to-image Editing by Image Information Removal
- Title(参考訳): 画像情報除去によるテキスト・画像編集
- Authors: Zhongping Zhang, Jian Zheng, Jacob Zhiyuan Fang, Bryan A. Plummer
- Abstract要約: 原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
提案手法は,COCOの先行技術よりも,アノテータの方が約35%好適な編集可能性-忠実トレードオフを実現する。
- 参考スコア(独自算出の注目度): 12.527820841420029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated impressive performance in text-guided
image generation. To leverage the knowledge of text-guided image generation
models in image editing, current approaches either fine-tune the pretrained
models using the input image (e.g., Imagic) or incorporate structure
information as additional constraints into the pretrained models (e.g.,
ControlNet). However, fine-tuning large-scale diffusion models on a single
image can lead to severe overfitting issues and lengthy inference time. The
information leakage from pretrained models makes it challenging to preserve the
text-irrelevant content of the input image while generating new features guided
by language descriptions. On the other hand, methods that incorporate
structural guidance (e.g., edge maps, semantic maps, keypoints) as additional
constraints face limitations in preserving other attributes of the original
image, such as colors or textures. A straightforward way to incorporate the
original image is to directly use it as an additional control. However, since
image editing methods are typically trained on the image reconstruction task,
the incorporation can lead to the identical mapping issue, where the model
learns to output an image identical to the input, resulting in limited editing
capabilities. To address these challenges, we propose a text-to-image editing
model with Image Information Removal module (IIR) to selectively erase
color-related and texture-related information from the original image, allowing
us to better preserve the text-irrelevant content and avoid the identical
mapping issue. We evaluate our model on three benchmark datasets: CUB, Outdoor
Scenes, and COCO. Our approach achieves the best editability-fidelity
trade-off, and our edited images are approximately 35% more preferred by
annotators than the prior-arts on COCO.
- Abstract(参考訳): 拡散モデルはテキスト誘導画像生成において顕著な性能を示した。
画像編集におけるテキスト誘導画像生成モデルの知識を活用するため、現在のアプローチでは、入力画像(例えばImagic)を使用して事前訓練されたモデルを微調整するか、事前訓練されたモデル(例えばControlNet)に付加的な制約として構造情報を組み込む。
しかしながら、単一の画像上での大規模拡散モデルの微調整は、深刻な過剰フィッティング問題と長い推論時間を引き起こす可能性がある。
事前学習されたモデルからの情報漏洩は、入力画像のテキスト関連コンテンツの保存を困難にし、言語記述に導かれる新機能を生成する。
一方で、追加の制約として構造的ガイダンス(エッジマップ、セマンティックマップ、キーポイントなど)を組み込んだメソッドは、色やテクスチャといった元のイメージの他の属性を保存する際の制限に直面する。
オリジナルのイメージを組み込む簡単な方法は、直接それを追加のコントロールとして使うことである。
しかし、画像編集法は通常、画像再構成タスクで訓練されるため、組み込まれていると同一のマッピング問題が発生し、そこでモデルが入力と同一の画像の出力を学習し、編集能力が制限される。
これらの課題に対処するため、画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案し、原画像から色関連情報やテクスチャ関連情報を選択的に消去し、テキスト関連コンテンツをより保存し、同一のマッピング問題を回避する。
我々は,cub,アウトドアシーン,cocoという3つのベンチマークデータセットでモデルを評価する。
提案手法は,COCOの先行技術よりも,アノテータの方が約35%好適な編集可能性-忠実トレードオフを実現する。
関連論文リスト
- DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。