論文の概要: Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification
- arxiv url: http://arxiv.org/abs/2312.03046v2
- Date: Thu, 7 Dec 2023 02:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:39:48.906600
- Title: Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification
- Title(参考訳): 数ショット分類のための効率的な微調整によるドメイン内分散合成
- Authors: Victor G. Turrisi da Costa, Nicola Dall'Asen, Yiming Wang, Nicu Sebe,
Elisa Ricci
- Abstract要約: 画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
- 参考スコア(独自算出の注目度): 64.86872227580866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot image classification aims to learn an image classifier using only a
small set of labeled examples per class. A recent research direction for
improving few-shot classifiers involves augmenting the labelled samples with
synthetic images created by state-of-the-art text-to-image generation models.
Following this trend, we propose Diversified In-domain Synthesis with Efficient
Fine-tuning (DISEF), a novel approach which addresses the generalization
challenge in few-shot learning using synthetic data. DISEF consists of two main
components. First, we propose a novel text-to-image augmentation pipeline that,
by leveraging the real samples and their rich semantics coming from an advanced
captioning model, promotes in-domain sample diversity for better
generalization. Second, we emphasize the importance of effective model
fine-tuning in few-shot recognition, proposing to use Low-Rank Adaptation
(LoRA) for joint adaptation of the text and image encoders in a Vision Language
Model. We validate our method in ten different benchmarks, consistently
outperforming baselines and establishing a new state-of-the-art for few-shot
classification. Code is available at https://github.com/vturrisi/disef.
- Abstract(参考訳): 画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
少数ショット分類器の改良に向けた最近の研究の方向性は、最新のテキスト対画像生成モデルによって作成された合成画像でラベル付きサンプルを増強することである。
この傾向に従い、合成データを用いた数ショット学習における一般化課題に対処する新しいアプローチであるDISEF(Diversified In-domain Synthesis with Efficient Fine-tuning)を提案する。
DISEFは2つの主要コンポーネントから構成される。
まず,高度なキャプションモデルから得られる実サンプルとそのリッチセマンティクスを活用することで,ドメイン内サンプルの多様性を促進し,より一般化する新しいテキストから画像への拡張パイプラインを提案する。
次に,視覚言語モデルにおけるテキストと画像エンコーダの協調適応のための低ランク適応(lora)の利用を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端技術を確立する。
コードはhttps://github.com/vturrisi/disefで入手できる。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Learning Disentangled Prompts for Compositional Image Synthesis [27.99470176603746]
本研究では,事前学習した画像生成モデルに1つの画像から新しいスタイルや概念を教え,新しい画像を合成する問題について検討する。
いくつかの画像から意味(クラス)とドメイン(スタイル)の非絡み合ったプロンプトを学習する新規なソースクラス蒸留ビジュアルプロンプトを提案する。
論文 参考訳(メタデータ) (2023-06-01T14:56:37Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。