論文の概要: Attributed Synthetic Data Generation for Zero-shot Domain-specific Image Classification
- arxiv url: http://arxiv.org/abs/2504.04510v1
- Date: Sun, 06 Apr 2025 14:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:23.395718
- Title: Attributed Synthetic Data Generation for Zero-shot Domain-specific Image Classification
- Title(参考訳): ゼロショット領域固有画像分類のための分散合成データ生成
- Authors: Shijian Wang, Linxin Song, Ryotaro Shimizu, Masayuki Goto, Hanqian Wu,
- Abstract要約: 本稿では,属性付きプロンプトを生成するために,大規模言語モデルを活用するAttrSynを提案する。
2つのきめ細かいデータセットに対するゼロショットドメイン固有の画像分類の実験では、AttrSynが生成した合成画像によるトレーニングがCLIPのゼロショット分類を著しく上回っている。
- 参考スコア(独自算出の注目度): 3.0105723746073
- License:
- Abstract: Zero-shot domain-specific image classification is challenging in classifying real images without ground-truth in-domain training examples. Recent research involved knowledge from texts with a text-to-image model to generate in-domain training images in zero-shot scenarios. However, existing methods heavily rely on simple prompt strategies, limiting the diversity of synthetic training images, thus leading to inferior performance compared to real images. In this paper, we propose AttrSyn, which leverages large language models to generate attributed prompts. These prompts allow for the generation of more diverse attributed synthetic images. Experiments for zero-shot domain-specific image classification on two fine-grained datasets show that training with synthetic images generated by AttrSyn significantly outperforms CLIP's zero-shot classification under most situations and consistently surpasses simple prompt strategies.
- Abstract(参考訳): ゼロショットドメイン固有の画像分類は、ドメイン内トレーニング例のない実画像の分類が困難である。
近年の研究では、ゼロショットシナリオでドメイン内のトレーニング画像を生成するためのテキスト・ツー・イメージモデルによるテキストからの知識が研究されている。
しかし、既存の手法は単純なプロンプト戦略に大きく依存しており、合成訓練画像の多様性を制限しているため、実際の画像に比べて性能が劣っている。
本稿では,大規模言語モデルを用いて属性付きプロンプトを生成するAttrSynを提案する。
これらのプロンプトにより、より多様な属性の合成画像が生成される。
2つのきめ細かいデータセットにおけるゼロショットドメイン固有の画像分類の実験では、AttrSynによって生成された合成画像によるトレーニングは、ほとんどの状況下でCLIPのゼロショット分類を著しく上回り、単純なプロンプト戦略を一貫して上回っている。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [35.195284384050325]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - Learning Disentangled Prompts for Compositional Image Synthesis [27.99470176603746]
本研究では,事前学習した画像生成モデルに1つの画像から新しいスタイルや概念を教え,新しい画像を合成する問題について検討する。
いくつかの画像から意味(クラス)とドメイン(スタイル)の非絡み合ったプロンプトを学習する新規なソースクラス蒸留ビジュアルプロンプトを提案する。
論文 参考訳(メタデータ) (2023-06-01T14:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。