論文の概要: Few-Shot Learning with Visual Distribution Calibration and Cross-Modal
Distribution Alignment
- arxiv url: http://arxiv.org/abs/2305.11439v1
- Date: Fri, 19 May 2023 05:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:13:40.186442
- Title: Few-Shot Learning with Visual Distribution Calibration and Cross-Modal
Distribution Alignment
- Title(参考訳): 視覚分布校正とクロスモーダル分布アライメントを用いたFew-Shot Learning
- Authors: Runqi Wang, Hao Zheng, Xiaoyue Duan, Jianzhuang Liu, Yuning Lu, Tian
Wang, Songcen Xu, Baochang Zhang
- Abstract要約: 事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。
少数の訓練画像だけで、視覚的特徴分布は画像のクラス非関連情報によって容易に妨げられる。
本稿では,画像の空間的注意マップを生成するSelective Attackモジュールを提案する。
- 参考スコア(独自算出の注目度): 47.53887941065894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models have inspired much research on few-shot
learning. However, with only a few training images, there exist two crucial
problems: (1) the visual feature distributions are easily distracted by
class-irrelevant information in images, and (2) the alignment between the
visual and language feature distributions is difficult. To deal with the
distraction problem, we propose a Selective Attack module, which consists of
trainable adapters that generate spatial attention maps of images to guide the
attacks on class-irrelevant image areas. By messing up these areas, the
critical features are captured and the visual distributions of image features
are calibrated. To better align the visual and language feature distributions
that describe the same object class, we propose a cross-modal distribution
alignment module, in which we introduce a vision-language prototype for each
class to align the distributions, and adopt the Earth Mover's Distance (EMD) to
optimize the prototypes. For efficient computation, the upper bound of EMD is
derived. In addition, we propose an augmentation strategy to increase the
diversity of the images and the text prompts, which can reduce overfitting to
the few-shot training images. Extensive experiments on 11 datasets demonstrate
that our method consistently outperforms prior arts in few-shot learning. The
implementation code will be available at https://github.com/bhrqw/SADA.
- Abstract(参考訳): 事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。
しかし、いくつかの訓練画像では、(1)視覚特徴分布は、画像中のクラス非関連情報によって容易に邪魔され、(2)視覚特徴分布と言語特徴分布のアライメントは困難である。
そこで本研究では,画像の空間的注意マップを生成して,クラス非関連領域に対する攻撃を誘導する,訓練可能なアダプタで構成される選択攻撃モジュールを提案する。
これらの領域を乱すことで、重要な特徴を捉え、画像の特徴の視覚的分布を校正する。
そこで我々は,同じオブジェクトクラスを記述した視覚的特徴分布と言語的特徴分布の整合性を改善するために,各クラスに対する視覚言語型プロトタイプを導入し,プロトタイプを最適化するためにEarth Mover's Distance (EMD)を採用した。
効率的な計算のために、emdの上限を導出する。
さらに,画像とテキストプロンプトの多様性を高めるための拡張戦略を提案する。
11のデータセットに対する広範囲な実験により,本手法は,小数点学習において,先行技術よりも常に優れていることが証明された。
実装コードはhttps://github.com/bhrqw/SADAで公開される。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。