論文の概要: Discriminative Class Tokens for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17155v4
- Date: Thu, 09 Jan 2025 22:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:27.578868
- Title: Discriminative Class Tokens for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのための識別クラストークン
- Authors: Idan Schwartz, Vésteinn Snæbjarnarson, Hila Chefer, Ryan Cotterell, Serge Belongie, Lior Wolf, Sagie Benaim,
- Abstract要約: 自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
- 参考スコア(独自算出の注目度): 102.88033622546251
- License:
- Abstract: Recent advances in text-to-image diffusion models have enabled the generation of diverse and high-quality images. While impressive, the images often fall short of depicting subtle details and are susceptible to errors due to ambiguity in the input text. One way of alleviating these issues is to train diffusion models on class-labeled datasets. This approach has two disadvantages: (i) supervised datasets are generally small compared to large-scale scraped text-image datasets on which text-to-image models are trained, affecting the quality and diversity of the generated images, or (ii) the input is a hard-coded label, as opposed to free-form text, limiting the control over the generated images. In this work, we propose a non-invasive fine-tuning technique that capitalizes on the expressive potential of free-form text while achieving high accuracy through discriminative signals from a pretrained classifier. This is done by iteratively modifying the embedding of an added input token of a text-to-image diffusion model, by steering generated images toward a given target class according to a classifier. Our method is fast compared to prior fine-tuning methods and does not require a collection of in-class images or retraining of a noise-tolerant classifier. We evaluate our method extensively, showing that the generated images are: (i) more accurate and of higher quality than standard diffusion models, (ii) can be used to augment training data in a low-resource setting, and (iii) reveal information about the data used to train the guiding classifier. The code is available at \url{https://github.com/idansc/discriminative_class_tokens}.
- Abstract(参考訳): テキスト・画像拡散モデルの最近の進歩は、多彩で高品質な画像の生成を可能にしている。
印象的ではあるが、画像は微妙な細部を描写するに足りず、入力テキストの曖昧さによる誤りに悩まされることが多い。
これらの問題を緩和する1つの方法は、クラスラベルデータセット上で拡散モデルをトレーニングすることである。
このアプローチには2つの欠点があります。
(i)教師付きデータセットは、テキスト・ツー・イメージ・モデルが訓練された大規模スクラップされたテキスト・イメージ・データセットと比較して、一般的に小さく、生成された画像の品質や多様性に影響を与える。
(ii)入力は、自由形式のテキストとは対照的にハードコードされたラベルであり、生成された画像の制御を制限する。
本研究では,事前学習した分類器の識別信号によって高い精度を達成しつつ,自由形式のテキストの表現能力を活かした非侵襲的な微調整手法を提案する。
これは、テキスト間拡散モデルの追加入力トークンの埋め込みを反復的に修正し、分類器に従って生成された画像を所定のターゲットクラスに向けて操ることによって行われる。
本手法は,従来の微調整法と比較して高速で,クラス内画像の収集や雑音耐性分類器の再学習は不要である。
提案手法を広範囲に評価し,生成した画像が次の通りであることを示す。
(i)標準拡散モデルより正確で高品質である。
(ii)低リソース環境でのトレーニングデータの強化、及び
三 案内分類器の訓練に使用するデータに関する情報を開示すること。
コードは \url{https://github.com/idansc/discriminative_class_tokens} で公開されている。
関連論文リスト
- UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。