論文の概要: Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion
- arxiv url: http://arxiv.org/abs/2302.03298v3
- Date: Fri, 24 Mar 2023 03:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:46:40.990093
- Title: Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion
- Title(参考訳): 多様性が必要である:安定拡散によるモデル非依存なゼロショット分類の改善
- Authors: Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton
Fookes
- Abstract要約: モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
- 参考スコア(独自算出の注目度): 22.237426507711362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the problem of Model-Agnostic Zero-Shot
Classification (MA-ZSC), which refers to training non-specific classification
architectures (downstream models) to classify real images without using any
real images during training. Recent research has demonstrated that generating
synthetic training images using diffusion models provides a potential solution
to address MA-ZSC. However, the performance of this approach currently falls
short of that achieved by large-scale vision-language models. One possible
explanation is a potential significant domain gap between synthetic and real
images. Our work offers a fresh perspective on the problem by providing initial
insights that MA-ZSC performance can be improved by improving the diversity of
images in the generated dataset. We propose a set of modifications to the
text-to-image generation process using a pre-trained diffusion model to enhance
diversity, which we refer to as our $\textbf{bag of tricks}$. Our approach
shows notable improvements in various classification architectures, with
results comparable to state-of-the-art models such as CLIP. To validate our
approach, we conduct experiments on CIFAR10, CIFAR100, and EuroSAT, which is
particularly difficult for zero-shot classification due to its satellite image
domain. We evaluate our approach with five classification architectures,
including ResNet and ViT. Our findings provide initial insights into the
problem of MA-ZSC using diffusion models. All code will be available on GitHub.
- Abstract(参考訳): 本研究では,実画像を用いずに実画像の分類を行うための非特異的分類アーキテクチャ(ダウンストリームモデル)を訓練することを目的とした,モデル非依存ゼロショット分類(ma-zsc)の問題を検討する。
近年の研究では、拡散モデルを用いた合成訓練画像の生成は、ma-zscに対処する潜在的な解決策となることが示されている。
しかし、現在のこのアプローチの性能は、大規模なビジョン言語モデルによって達成されるものには及ばない。
考えられる説明の1つは、合成画像と実画像の間の潜在的な領域ギャップである。
我々の研究は、生成したデータセット内の画像の多様性を改善することにより、MA-ZSCの性能を改善することができるという最初の洞察を提供することで、この問題に対する新たな視点を提供する。
我々は,事前学習した拡散モデルを用いてテキストから画像への生成プロセスを改良し,多様性を高めることを提案する。
提案手法は,CLIPなどの最先端モデルに匹敵する,様々な分類アーキテクチャにおける顕著な改善を示す。
CIFAR10, CIFAR100, EuroSATの衛星画像領域によるゼロショット分類は特に困難である。
我々はResNetとViTを含む5つの分類アーキテクチャでアプローチを評価した。
本研究は拡散モデルを用いたma-zsc問題の初期知見を提供する。
すべてのコードはGitHubで入手できる。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T06:33:49Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。
提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文 参考訳(メタデータ) (2022-09-13T19:08:30Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。