論文の概要: ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation
- arxiv url: http://arxiv.org/abs/2305.04651v1
- Date: Mon, 8 May 2023 12:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 14:29:19.959719
- Title: ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation
- Title(参考訳): ゼロショット画像翻訳のためのリッチプロンプト付き拡散モデルの再生学習
- Authors: Yupei Lin and Sen Zhang and Xiaojun Yang and Xiao Wang and Yukai Shi
- Abstract要約: 大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
- 参考スコア(独自算出の注目度): 8.803251014279502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image models have demonstrated amazing ability to
synthesize diverse and high-fidelity images. However, these models are often
violated by several limitations. Firstly, they require the user to provide
precise and contextually relevant descriptions for the desired image
modifications. Secondly, current models can impose significant changes to the
original image content during the editing process. In this paper, we explore
ReGeneration learning in an image-to-image Diffusion model (ReDiffuser), that
preserves the content of the original image without human prompting and the
requisite editing direction is automatically discovered within the text
embedding space. To ensure consistent preservation of the shape during image
editing, we propose cross-attention guidance based on regeneration learning.
This novel approach allows for enhanced expression of the target domain
features while preserving the original shape of the image. In addition, we
introduce a cooperative update strategy, which allows for efficient
preservation of the original shape of an image, thereby improving the quality
and consistency of shape preservation throughout the editing process. Our
proposed method leverages an existing pre-trained text-image diffusion model
without any additional training. Extensive experiments show that the proposed
method outperforms existing work in both real and synthetic image editing.
- Abstract(参考訳): 大規模テキスト対画像モデルは、多様で高精細な画像を合成する素晴らしい能力を示している。
しかし、これらのモデルはいくつかの制限によってしばしば破られる。
まず、ユーザーは所望の画像修正について、正確かつ文脈的に関連した説明を提供する必要がある。
第二に、現在のモデルは、編集プロセス中にオリジナルの画像コンテンツに大きな変更を課すことができる。
本稿では,画像から画像への拡散モデル(ReDiffuser)を用いた画像生成学習について検討する。
画像編集中の形状の一貫性を確保するため,再生学習に基づく相互注意誘導を提案する。
この新しいアプローチは、画像の本来の形状を保ちながら、ターゲット領域の特徴を拡張できる。
また,画像のオリジナル形状を効率的に保存し,編集過程における形状保存の質と一貫性を向上させる協調更新戦略を提案する。
提案手法は,既存のトレーニング済みテキスト画像拡散モデルを活用する。
広汎な実験により,提案手法は実画像編集と合成画像編集の両方において,既存の作業よりも優れていた。
関連論文リスト
- Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing [42.73883397041092]
本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。
本研究では,入力画像の全体構造を保存するための自己誘導手法について検討する。
本稿では,人間の評価と定量的分析を通じて,提案手法が望ましい編集を可能にすることを示す。
論文 参考訳(メタデータ) (2024-09-02T15:21:46Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。