論文の概要: DiffAlign : Few-shot learning using diffusion based synthesis and
alignment
- arxiv url: http://arxiv.org/abs/2212.05404v1
- Date: Sun, 11 Dec 2022 04:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:29:23.303889
- Title: DiffAlign : Few-shot learning using diffusion based synthesis and
alignment
- Title(参考訳): DiffAlign : 拡散に基づく合成とアライメントを用いたFew-shot Learning
- Authors: Aniket Roy, Anshul Shah, Ketul Shah, Anirban Roy, Rama Chellappa
- Abstract要約: クラスラベルから画像を生成することに焦点を当てたDiffAlignを提案する。
CIFAR-FS, FC100, miniImageNet, tieredImageNet, and a cross-domain few-shot classification benchmark: miniImageNet to CUB。
- 参考スコア(独自算出の注目度): 55.44406044211433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of few-shot classification where the goal is to learn
a classifier from a limited set of samples. While data-driven learning is shown
to be effective in various applications, learning from less data still remains
challenging. To address this challenge, existing approaches consider various
data augmentation techniques for increasing the number of training samples.
Pseudo-labeling is commonly used in a few-shot setup, where approximate labels
are estimated for a large set of unlabeled images. We propose DiffAlign which
focuses on generating images from class labels. Specifically, we leverage the
recent success of the generative models (e.g., DALL-E and diffusion models)
that can generate realistic images from texts. However, naive learning on
synthetic images is not adequate due to the domain gap between real and
synthetic images. Thus, we employ a maximum mean discrepancy (MMD) loss to
align the synthetic images to the real images minimizing the domain gap. We
evaluate our method on the standard few-shot classification benchmarks:
CIFAR-FS, FC100, miniImageNet, tieredImageNet and a cross-domain few-shot
classification benchmark: miniImageNet to CUB. The proposed approach
significantly outperforms the stateof-the-art in both 5-shot and 1-shot setups
on these benchmarks. Our approach is also shown to be effective in the
zero-shot classification setup
- Abstract(参考訳): 我々は,限られたサンプルセットから分類器を学習することを目的とした,少数ショット分類の問題に対処する。
データ駆動学習は様々なアプリケーションで有効であることが示されているが、少ないデータからの学習はまだ難しい。
この課題に対処するため、既存のアプローチでは、トレーニングサンプルの数を増やすための様々なデータ拡張技術を検討する。
Pseudo-labelingは、大まかにラベル付けされていない画像に対して近似ラベルを推定する数ショット設定で一般的に使用される。
クラスラベルから画像を生成することに焦点を当てたDiffAlignを提案する。
具体的には、テキストから現実的な画像を生成することができる生成モデル(例えば、DALL-Eや拡散モデル)の最近の成功を活用する。
しかし,実画像と合成画像の領域差のため,合成画像でのナイーブ学習は不十分である。
そこで我々は,合成画像と実画像との整合を最小化するために,MMD損失の最大値を用いる。
本手法は,cifar-fs,fc100,miniimagenet,tieredimagenet,およびクロスドメインの少数ショット分類ベンチマークであるminiimagenet to cubを用いて評価した。
提案手法は,これらのベンチマークの5ショットおよび1ショットのセットアップにおいて,最先端を著しく上回っている。
また,本手法はゼロショット分類設定において有効であることを示す。
関連論文リスト
- Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。