論文の概要: SINE: SINgle Image Editing with Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2212.04489v1
- Date: Thu, 8 Dec 2022 18:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:49:00.324095
- Title: SINE: SINgle Image Editing with Text-to-Image Diffusion Models
- Title(参考訳): SINE:テキスト-画像拡散モデルを用いたSINgle画像編集
- Authors: Zhixing Zhang, Ligong Han, Arnab Ghosh, Dimitris Metaxas, Jian Ren
- Abstract要約: 本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
- 参考スコア(独自算出の注目度): 10.67527134198167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on diffusion models have demonstrated a strong capability for
conditioning image generation, e.g., text-guided image synthesis. Such success
inspires many efforts trying to use large-scale pre-trained diffusion models
for tackling a challenging problem--real image editing. Works conducted in this
area learn a unique textual token corresponding to several images containing
the same object. However, under many circumstances, only one image is
available, such as the painting of the Girl with a Pearl Earring. Using
existing works on fine-tuning the pre-trained diffusion models with a single
image causes severe overfitting issues. The information leakage from the
pre-trained diffusion models makes editing can not keep the same content as the
given image while creating new features depicted by the language guidance. This
work aims to address the problem of single-image editing. We propose a novel
model-based guidance built upon the classifier-free guidance so that the
knowledge from the model trained on a single image can be distilled into the
pre-trained diffusion model, enabling content creation even with one given
image. Additionally, we propose a patch-based fine-tuning that can effectively
help the model generate images of arbitrary resolution. We provide extensive
experiments to validate the design choices of our approach and show promising
editing capabilities, including changing style, content addition, and object
manipulation. The code is available for research purposes at
https://github.com/zhang-zx/SINE.git .
- Abstract(参考訳): 拡散モデルに関する最近の研究は、テキスト誘導画像合成のような条件付き画像生成の強力な能力を示している。
このような成功は、大規模な事前訓練された拡散モデルを使って挑戦的な問題-実画像編集に取り組む多くの努力を刺激する。
この領域での作業は、同じオブジェクトを含む複数の画像に対応するユニークなテキストトークンを学ぶ。
しかし、真珠のイヤリングを持つ少女の絵など、多くの状況下では1枚の絵しか手に入らない。
事前学習した拡散モデルを1つの画像で微調整する既存の作業を使用することで、過度なオーバーフィッティング問題を引き起こす。
事前学習された拡散モデルからの情報漏洩により、編集は与えられた画像と同一のコンテンツを保持できなくなり、言語指導で表現された新機能を作成することができる。
本研究の目的は、単一画像編集の問題に対処することである。
そこで本研究では,一つの画像に訓練されたモデルからの知識を事前学習した拡散モデルに蒸留し,与えられた画像でもコンテンツを作成することができるように,分類子なし指導に基づく新しいモデルベース指導を提案する。
さらに,任意の解像度の画像を効果的に生成できるパッチベースの微調整を提案する。
提案手法の設計選択を検証し,スタイルの変更,コンテンツの追加,オブジェクト操作など,有望な編集能力を示すための広範な実験を行った。
コードはhttps://github.com/zhang-zx/sine.gitで研究目的に利用できる。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Unified Concept Editing in Diffusion Models [53.30378722979958]
一つのアプローチで全ての問題に取り組む方法を提案する。
本手法,Unified Concept Editing (UCE) は,クローズドフォーム・ソリューションを用いて学習せずにモデルを編集する。
テキスト・ツー・イメージ・プロジェクションを編集することで、拡張性のある同時デバイアス、スタイル消去、コンテンツモデレーションを実証する。
論文 参考訳(メタデータ) (2023-08-25T17:59:59Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。