Fugu-MT 論文翻訳(概要): Boosting Zero-shot Classification with Synthetic Data Diversity via Stable Diffusion

論文の概要: Boosting Zero-shot Classification with Synthetic Data Diversity via Stable Diffusion

arxiv url: http://arxiv.org/abs/2302.03298v1
Date: Tue, 7 Feb 2023 07:13:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 17:10:09.080202
Title: Boosting Zero-shot Classification with Synthetic Data Diversity via Stable Diffusion
Title（参考訳）: 安定拡散による合成データ多様性によるゼロショット分類の促進
Authors: Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes
Abstract要約: 合成データセットの多様性は、合成データと実データの間の領域ギャップよりも重要であることを示す。多様性を向上させるためのトリックのテキストタグを提案し、視覚言語モデルであるCLIPに匹敵するパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 22.237426507711362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research has shown it is possible to perform zero-shot classification tasks by training a classifier with synthetic data generated by a diffusion model. However, the performance of this approach is still inferior to that of recent vision-language models. It has been suggested that the reason for this is a domain gap between the synthetic and real data. In our work, we show that this domain gap is not the main issue, and that diversity in the synthetic dataset is more important. We propose a \textit{bag of tricks} to improve diversity and are able to achieve performance on par with one of the vision-language models, CLIP. More importantly, this insight allows us to endow zero-shot classification capabilities on any classification model.
Abstract（参考訳）: 近年の研究では、拡散モデルにより生成された合成データを用いて分類器を訓練することにより、ゼロショット分類タスクを実行できることが示されている。しかし,この手法の性能は近年の視覚言語モデルよりも劣っている。この理由は、合成データと実データの間にドメインギャップがあることが示唆されている。我々の研究は、この領域ギャップが主な問題ではなく、合成データセットの多様性がより重要であることを示している。我々は,多様性を向上させるための \textit{bag of tricks} を提案し,視覚言語モデルである clip と同等のパフォーマンスを実現する。さらに重要なことは、この洞察により、任意の分類モデル上でゼロショット分類機能を実現することができます。

関連論文リスト

Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文参考訳（メタデータ） (2024-12-23T02:18:54Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文参考訳（メタデータ） (2024-03-09T17:17:07Z)
Improving Few-shot Image Generation by Structural Discrimination and Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文参考訳（メタデータ） (2023-08-30T16:10:21Z)
Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文参考訳（メタデータ） (2023-07-17T17:59:40Z)
DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文参考訳（メタデータ） (2023-07-03T06:33:49Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文参考訳（メタデータ） (2022-09-13T19:08:30Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。