論文の概要: DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2110.02711v1
- Date: Wed, 6 Oct 2021 12:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:45:18.027567
- Title: DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models
- Title(参考訳): DiffusionCLIP:拡散モデルを用いたテキスト誘導画像操作
- Authors: Gwanghyun Kim, Jong Chul Ye
- Abstract要約: 本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
- 参考スコア(独自算出の注目度): 33.79188588182528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are recent generative models that have shown great success
in image generation with the state-of-the-art performance. However, only a few
researches have been conducted for image manipulation with diffusion models.
Here, we present a novel DiffusionCLIP which performs text-driven image
manipulation with diffusion models using Contrastive Language-Image
Pre-training (CLIP) loss. Our method has a performance comparable to that of
the modern GAN-based image processing methods for in and out-of-domain image
processing tasks, with the advantage of almost perfect inversion even without
additional encoders or optimization. Furthermore, our method can be easily used
for various novel applications, enabling image translation from an unseen
domain to another unseen domain or stroke-conditioned image generation in an
unseen domain, etc. Finally, we present a novel multiple attribute control with
DiffusionCLIPby combining multiple fine-tuned diffusion models.
- Abstract(参考訳): 拡散モデルは、最先端の性能で画像生成に大きな成功を収めた最近の生成モデルである。
しかし、拡散モデルを用いた画像操作についての研究はごくわずかである。
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は,領域内および領域外の画像処理タスクに対する最新のGANベースの画像処理手法に匹敵する性能を有し,エンコーダや最適化を伴わずにほぼ完全な逆変換の利点を享受できる。
さらに、この手法は、未処理ドメインから別の未処理ドメインへの画像変換や、未処理ドメインでのストローク条件画像生成など、様々な新規用途に容易に使用することができる。
最後に、複数の微調整拡散モデルを組み合わせたDiffusionCLIPbyを用いた新しい多重属性制御を提案する。
関連論文リスト
- EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。
我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。
実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:48Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Semantic Image Synthesis for Abdominal CT [14.808000433125523]
本研究では,条件付き拡散モデルを用いた腹部CTのセマンティック画像合成について検討する。
実験結果から, 腹部CT画像の高画質化が得られた。
論文 参考訳(メタデータ) (2023-12-11T15:39:41Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image
Captioning [36.4086473737433]
本稿では,プレフィックス拡散(Prefix-diffusion)と呼ばれる,連続拡散を伴う軽量画像キャプションネットワークを提案する。
多様性を実現するために,拡散モデルの復調過程にプレフィックス画像埋め込みを注入する効率的な手法を設計する。
トレーニング可能なパラメータを減らすために,事前学習モデルを用いて画像の特徴を抽出し,さらに余分なマッピングネットワークを設計する。
論文 参考訳(メタデータ) (2023-09-10T08:55:24Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。