論文の概要: Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion
- arxiv url: http://arxiv.org/abs/2302.03298v4
- Date: Mon, 17 Apr 2023 01:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 21:13:53.008377
- Title: Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion
- Title(参考訳): 多様性が必要である:安定拡散によるモデル非依存なゼロショット分類の改善
- Authors: Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton
Fookes
- Abstract要約: モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
- 参考スコア(独自算出の注目度): 22.237426507711362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the problem of Model-Agnostic Zero-Shot
Classification (MA-ZSC), which refers to training non-specific classification
architectures (downstream models) to classify real images without using any
real images during training. Recent research has demonstrated that generating
synthetic training images using diffusion models provides a potential solution
to address MA-ZSC. However, the performance of this approach currently falls
short of that achieved by large-scale vision-language models. One possible
explanation is a potential significant domain gap between synthetic and real
images. Our work offers a fresh perspective on the problem by providing initial
insights that MA-ZSC performance can be improved by improving the diversity of
images in the generated dataset. We propose a set of modifications to the
text-to-image generation process using a pre-trained diffusion model to enhance
diversity, which we refer to as our $\textbf{bag of tricks}$. Our approach
shows notable improvements in various classification architectures, with
results comparable to state-of-the-art models such as CLIP. To validate our
approach, we conduct experiments on CIFAR10, CIFAR100, and EuroSAT, which is
particularly difficult for zero-shot classification due to its satellite image
domain. We evaluate our approach with five classification architectures,
including ResNet and ViT. Our findings provide initial insights into the
problem of MA-ZSC using diffusion models. All code will be available on GitHub.
- Abstract(参考訳): 本研究では,実画像を用いずに実画像の分類を行うための非特異的分類アーキテクチャ(ダウンストリームモデル)を訓練することを目的とした,モデル非依存ゼロショット分類(ma-zsc)の問題を検討する。
近年の研究では、拡散モデルを用いた合成訓練画像の生成は、ma-zscに対処する潜在的な解決策となることが示されている。
しかし、現在のこのアプローチの性能は、大規模なビジョン言語モデルによって達成されるものには及ばない。
考えられる説明の1つは、合成画像と実画像の間の潜在的な領域ギャップである。
我々の研究は、生成したデータセット内の画像の多様性を改善することにより、MA-ZSCの性能を改善することができるという最初の洞察を提供することで、この問題に対する新たな視点を提供する。
我々は,事前学習した拡散モデルを用いてテキストから画像への生成プロセスを改良し,多様性を高めることを提案する。
提案手法は,CLIPなどの最先端モデルに匹敵する,様々な分類アーキテクチャにおける顕著な改善を示す。
CIFAR10, CIFAR100, EuroSATの衛星画像領域によるゼロショット分類は特に困難である。
我々はResNetとViTを含む5つの分類アーキテクチャでアプローチを評価した。
本研究は拡散モデルを用いたma-zsc問題の初期知見を提供する。
すべてのコードはGitHubで入手できる。
関連論文リスト
- Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T06:33:49Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。
提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文 参考訳(メタデータ) (2022-09-13T19:08:30Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。