論文の概要: Discriminative Class Tokens for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17155v1
- Date: Thu, 30 Mar 2023 05:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:26:38.825037
- Title: Discriminative Class Tokens for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのための識別クラストークン
- Authors: Idan Schwartz, V\'esteinn Sn{\ae}bjarnarson, Sagie Benaim, Hila
Chefer, Ryan Cotterell, Lior Wolf, Serge Belongie
- Abstract要約: 自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
提案手法を広範に評価したところ, 生成した画像は, (i) 標準拡散モデルよりも正確で, 高品質であり, (ii) 低リソース環境でのトレーニングデータの拡張に使用できることがわかった。
- 参考スコア(独自算出の注目度): 122.09443946247877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image diffusion models have enabled the generation
of diverse and high-quality images. However, generated images often fall short
of depicting subtle details and are susceptible to errors due to ambiguity in
the input text. One way of alleviating these issues is to train diffusion
models on class-labeled datasets. This comes with a downside, doing so limits
their expressive power: (i) supervised datasets are generally small compared to
large-scale scraped text-image datasets on which text-to-image models are
trained, and so the quality and diversity of generated images are severely
affected, or (ii) the input is a hard-coded label, as opposed to free-form
text, which limits the control over the generated images.
In this work, we propose a non-invasive fine-tuning technique that
capitalizes on the expressive potential of free-form text while achieving high
accuracy through discriminative signals from a pretrained classifier, which
guides the generation. This is done by iteratively modifying the embedding of a
single input token of a text-to-image diffusion model, using the classifier, by
steering generated images toward a given target class. Our method is fast
compared to prior fine-tuning methods and does not require a collection of
in-class images or retraining of a noise-tolerant classifier. We evaluate our
method extensively, showing that the generated images are: (i) more accurate
and of higher quality than standard diffusion models, (ii) can be used to
augment training data in a low-resource setting, and (iii) reveal information
about the data used to train the guiding classifier. The code is available at
\url{https://github.com/idansc/discriminative_class_tokens}
- Abstract(参考訳): 近年のテキスト・画像拡散モデルの進歩により、多様で高品質な画像が生成できるようになった。
しかし、生成された画像はしばしば微妙な細部を描写するものではなく、入力テキストの曖昧さによる誤りの影響を受けやすい。
これらの問題を緩和する一つの方法は、クラスラベルデータセット上で拡散モデルをトレーニングすることである。
これにはマイナス面があり、表現力に制限があります。
(i)教師付きデータセットは、テキストから画像へのモデルを訓練した大規模スクレイピングテキスト画像データセットに比べ、一般的に小さいため、生成された画像の品質や多様性が著しく影響する。
(ii)入力は、生成した画像の制御を制限する自由形式のテキストとは対照的に、ハードコードされたラベルである。
本研究では,事前学習した分類器の識別信号を用いて高い精度を達成しつつ,自由形式のテキストの表現能力を活かした非侵襲的微調整手法を提案する。
これは、テキスト間拡散モデルの単一入力トークンの埋め込みを、その分類器を用いて反復的に修正し、生成された画像を所定のターゲットクラスに向けて操ることで行われる。
本手法は,従来の微調整法と比較して高速で,クラス内画像の収集や雑音耐性分類器の再学習は不要である。
提案手法を広範囲に評価し,生成した画像が次の通りであることを示す。
(i)標準拡散モデルよりも正確で高品質である。
(ii)低リソース環境でのトレーニングデータ強化に使用できる。
(iii)案内分類器の訓練に用いるデータに関する情報を明らかにする。
コードは \url{https://github.com/idansc/discriminative_class_tokens} で入手できる。
関連論文リスト
- UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。