論文の概要: Cross-Modal Mapping: Eliminating the Modality Gap for Few-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2412.20110v1
- Date: Sat, 28 Dec 2024 10:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:33.005072
- Title: Cross-Modal Mapping: Eliminating the Modality Gap for Few-Shot Image Classification
- Title(参考訳): クロスモーダルマッピング:Few-Shot画像分類のためのモダリティギャップの除去
- Authors: Xi Yang, Pai Peng, Wulin Xie, Xiaohuan Lu, Jie Wen,
- Abstract要約: 本稿では,画像特徴をテキストの特徴空間にマッピングする,シンプルで効率的なクロスモーダルマッピング(CMM)手法を提案する。
11ベンチマークの結果は、従来の方法と比べて平均3.5%改善したことを示している。
- 参考スコア(独自算出の注目度): 13.238769012534922
- License:
- Abstract: In few-shot image classification tasks, methods based on pretrained vision-language models (such as CLIP) have achieved significant progress. Many existing approaches directly utilize visual or textual features as class prototypes, however, these features fail to adequately represent their respective classes. We identify that this limitation arises from the modality gap inherent in pretrained vision-language models, which weakens the connection between the visual and textual modalities. To eliminate this modality gap and enable textual features to fully represent class prototypes, we propose a simple and efficient Cross-Modal Mapping (CMM) method. This method employs a linear transformation to map image features into the textual feature space, ensuring that both modalities are comparable within the same feature space. Nevertheless, the modality gap diminishes the effectiveness of this mapping. To address this, we further introduce a triplet loss to optimize the spatial relationships between image features and class textual features, allowing class textual features to naturally serve as class prototypes for image features. Experimental results on 11 benchmark demonstrate an average improvement of approximately 3.5% compared to conventional methods and exhibit competitive performance on 4 distribution shift benchmarks.
- Abstract(参考訳): 少数の画像分類タスクでは、事前訓練された視覚言語モデル(CLIPなど)に基づく手法が大きな進歩を遂げている。
既存の多くのアプローチでは、視覚的特徴やテキスト的特徴を直接クラスプロトタイプとして利用しているが、これらの特徴はそれぞれのクラスを適切に表現することができない。
この制限は、事前学習された視覚言語モデルに固有のモダリティギャップから生じるものであり、視覚的モダリティとテキスト的モダリティの接続を弱める。
このモダリティのギャップをなくし、テキスト特徴がクラスプロトタイプを完全に表現できるようにするために、単純で効率的なクロスモーダルマッピング法(CMM)を提案する。
この手法は、画像の特徴をテキストの特徴空間にマッピングするために線形変換を用い、両方のモダリティが同じ特徴空間内で同等であることを保証する。
それでも、モダリティギャップは、この写像の有効性を低下させる。
さらに,画像特徴とクラステキスト特徴の空間的関係を最適化し,クラステキスト特徴が画像特徴のクラスプロトタイプとして自然に機能できるようにするために,三重項損失を導入する。
11ベンチマークの実験結果は,従来の方法と比較して平均3.5%改善し,4つの分散シフトベンチマーク上での競合性能を示した。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。