論文の概要: The CLIP Model is Secretly an Image-to-Prompt Converter
- arxiv url: http://arxiv.org/abs/2305.12716v1
- Date: Mon, 22 May 2023 04:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:16:12.691558
- Title: The CLIP Model is Secretly an Image-to-Prompt Converter
- Title(参考訳): CLIPモデルは秘密裏にプロンプトコンバータ
- Authors: Yuxuan Ding, Chunna Tian, Haoxuan Ding, Lingqiao Liu
- Abstract要約: 本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
- 参考スコア(独自算出の注目度): 18.67341201857346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Stable Diffusion model is a prominent text-to-image generation model that
relies on a text prompt as its input, which is encoded using the Contrastive
Language-Image Pre-Training (CLIP). However, text prompts have limitations when
it comes to incorporating implicit information from reference images. Existing
methods have attempted to address this limitation by employing expensive
training procedures involving millions of training samples for image-to-image
generation. In contrast, this paper demonstrates that the CLIP model, as
utilized in Stable Diffusion, inherently possesses the ability to
instantaneously convert images into text prompts. Such an image-to-prompt
conversion can be achieved by utilizing a linear projection matrix that is
calculated in a closed form. Moreover, the paper showcases that this capability
can be further enhanced by either utilizing a small amount of similar-domain
training data (approximately 100 images) or incorporating several online
training steps (around 30 iterations) on the reference images. By leveraging
these approaches, the proposed method offers a simple and flexible solution to
bridge the gap between images and text prompts. This methodology can be applied
to various tasks such as image variation and image editing, facilitating more
effective and seamless interaction between images and textual prompts.
- Abstract(参考訳): 安定拡散モデル (Stable Diffusion model) は、テキストプロンプトを入力として依存する顕著なテキスト・画像生成モデルであり、Contrastive Language- Image Pre-Training (CLIP) を用いて符号化される。
しかし、テキストプロンプトは参照画像から暗黙の情報を取り入れることに関して制限がある。
既存の手法では、画像から画像への生成のために何百万ものトレーニングサンプルを含む高価なトレーニング手順を使用することで、この制限に対処しようと試みている。
対照的に,本論文では,安定拡散に利用されたクリップモデルが,画像からテキストプロンプトへの即時変換機能を有することを示す。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
さらに,本論文では,類似領域トレーニングデータ(約100画像)の少ない利用や,参照画像に複数のオンライントレーニングステップ(約30イテレーション)を組み込むことにより,この機能をさらに強化することができることを示す。
これらのアプローチを活用することで、提案手法は画像とテキストプロンプトの間のギャップを埋めるためのシンプルで柔軟なソリューションを提供する。
この方法論は、画像のばらつきや画像編集といった様々なタスクに適用でき、画像とテキストのプロンプト間のより効果的でシームレスなインタラクションを容易にする。
関連論文リスト
- Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - clip2latent: Text driven sampling of a pre-trained StyleGAN using
denoising diffusion and CLIP [1.3733526575192976]
事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。
外部データや微調整を必要とせずに、既存の生成モデルによるテキスト駆動サンプリングを可能にする。
CLIPのイメージとテキスト埋め込みのアライメントを活用して、条件付き拡散モデルをトレーニングするためのラベル付きデータを必要としないようにする。
論文 参考訳(メタデータ) (2022-10-05T15:49:41Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。