論文の概要: Text-to-image Editing by Image Information Removal
- arxiv url: http://arxiv.org/abs/2305.17489v2
- Date: Tue, 7 Nov 2023 19:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:51:06.247724
- Title: Text-to-image Editing by Image Information Removal
- Title(参考訳): 画像情報除去によるテキスト・画像編集
- Authors: Zhongping Zhang, Jian Zheng, Jacob Zhiyuan Fang, Bryan A. Plummer
- Abstract要約: 原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
- 参考スコア(独自算出の注目度): 19.464349486031566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated impressive performance in text-guided
image generation. Current methods that leverage the knowledge of these models
for image editing either fine-tune them using the input image (e.g., Imagic) or
incorporate structure information as additional constraints (e.g., ControlNet).
However, fine-tuning large-scale diffusion models on a single image can lead to
severe overfitting issues and lengthy inference time. Information leakage from
pretrained models also make it challenging to preserve image content not
related to the text input. Additionally, methods that incorporate structural
guidance (e.g., edge maps, semantic maps, keypoints) find retaining attributes
like colors and textures difficult. Using the input image as a control could
mitigate these issues, but since these models are trained via reconstruction, a
model can simply hide information about the original image when encoding it to
perfectly reconstruct the image without learning the editing task. To address
these challenges, we propose a text-to-image editing model with an Image
Information Removal module (IIR) that selectively erases color-related and
texture-related information from the original image, allowing us to better
preserve the text-irrelevant content and avoid issues arising from information
hiding. Our experiments on CUB, Outdoor Scenes, and COCO reports our approach
achieves the best editability-fidelity trade-off results. In addition, a user
study on COCO shows that our edited images are preferred 35% more often than
prior work.
- Abstract(参考訳): 拡散モデルはテキスト誘導画像生成において顕著な性能を示した。
画像編集にこれらのモデルの知識を活用する現在の手法は、入力画像(例えば、Imagic)を使って微調整するか、構造情報を追加の制約(例えば、ControlNet)として組み込むかである。
しかしながら、単一の画像上での大規模拡散モデルの微調整は、深刻な過剰フィッティング問題と長い推論時間を引き起こす可能性がある。
事前学習されたモデルからの情報漏洩は、テキスト入力に関係のない画像コンテンツを保存するのにも困難である。
さらに、構造的ガイダンス(エッジマップ、セマンティックマップ、キーポイントなど)を組み込んだ手法では、色やテクスチャなどの保持属性が難しい。
入力イメージを制御として使用すると、これらの問題は軽減されるが、これらのモデルは再構成によってトレーニングされるため、モデルは、編集タスクを学ばずに画像を完全に再構築するために、元の画像に関する情報をエンコードする際に単に隠すことができる。
これらの課題に対処するため,原画像から色関連情報やテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB,Outdoor Scenes,COCOの実験では,我々のアプローチが最良の編集可能性-忠実トレードオフ結果をもたらすことを報告している。
さらに,COCOのユーザ調査では,編集済み画像が前よりも35%多く好まれていることが示された。
関連論文リスト
- DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。