論文の概要: Discriminative Diffusion Models as Few-shot Vision and Language Learners
- arxiv url: http://arxiv.org/abs/2305.10722v2
- Date: Wed, 15 Nov 2023 07:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:37:59.924972
- Title: Discriminative Diffusion Models as Few-shot Vision and Language Learners
- Title(参考訳): 数発視覚と言語学習者の識別拡散モデル
- Authors: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula,
Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
- Abstract要約: 本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
- 参考スコア(独自算出の注目度): 91.38524112662448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, such as Stable Diffusion, have shown incredible performance
on text-to-image generation. Since text-to-image generation often requires
models to generate visual concepts with fine-grained details and attributes
specified in text prompts, can we leverage the powerful representations learned
by pre-trained diffusion models for discriminative tasks such as image-text
matching? To answer this question, we propose a novel approach, Discriminative
Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models
into few-shot discriminative learners. Our approach mainly uses the
cross-attention score of a Stable Diffusion model to capture the mutual
influence between visual and textual information and fine-tune the model via
efficient attention-based prompt learning to perform image-text matching. By
comparing DSD with state-of-the-art methods on several benchmark datasets, we
demonstrate the potential of using pre-trained diffusion models for
discriminative tasks with superior results on few-shot image-text matching.
- Abstract(参考訳): 安定拡散のような拡散モデルは、テキスト・画像生成において素晴らしい性能を示している。
テキストから画像への生成には,詳細な詳細情報や属性をテキストプロンプトで指定した視覚概念を生成するモデルが必要となることが多いため,画像・テキストマッチングなどの識別タスクにおいて,事前学習した拡散モデルで学習した強力な表現を活用できるか?
そこで本研究では,事前学習したテキストと画像の拡散モデルを,数ショットの識別学習者に変換する新たなアプローチ,DSDを提案する。
提案手法は, 安定拡散モデルの相互注意スコアを用いて, 視覚情報とテキスト情報の相互影響を捉え, より効率的な注意に基づくプロンプト学習により, 画像テキストマッチングを行う。
本稿では,いくつかのベンチマークデータセットにおけるdsdと最先端手法を比較することで,事前学習された拡散モデルを用いた識別処理の可能性を示す。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。