Fugu-MT 論文翻訳(概要): Cross-Modal Mapping: Eliminating the Modality Gap for Few-Shot Image Classification

論文の概要: Cross-Modal Mapping: Eliminating the Modality Gap for Few-Shot Image Classification

arxiv url: http://arxiv.org/abs/2412.20110v1
Date: Sat, 28 Dec 2024 10:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.484823
Title: Cross-Modal Mapping: Eliminating the Modality Gap for Few-Shot Image Classification
Title（参考訳）: クロスモーダルマッピング:Few-Shot画像分類のためのモダリティギャップの除去
Authors: Xi Yang, Pai Peng, Wulin Xie, Xiaohuan Lu, Jie Wen,
Abstract要約: 本稿では,画像特徴をテキストの特徴空間にマッピングする,シンプルで効率的なクロスモーダルマッピング(CMM)手法を提案する。 11ベンチマークの結果は、従来の方法と比べて平均3.5%改善したことを示している。
参考スコア（独自算出の注目度）: 13.238769012534922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In few-shot image classification tasks, methods based on pretrained vision-language models (such as CLIP) have achieved significant progress. Many existing approaches directly utilize visual or textual features as class prototypes, however, these features fail to adequately represent their respective classes. We identify that this limitation arises from the modality gap inherent in pretrained vision-language models, which weakens the connection between the visual and textual modalities. To eliminate this modality gap and enable textual features to fully represent class prototypes, we propose a simple and efficient Cross-Modal Mapping (CMM) method. This method employs a linear transformation to map image features into the textual feature space, ensuring that both modalities are comparable within the same feature space. Nevertheless, the modality gap diminishes the effectiveness of this mapping. To address this, we further introduce a triplet loss to optimize the spatial relationships between image features and class textual features, allowing class textual features to naturally serve as class prototypes for image features. Experimental results on 11 benchmark demonstrate an average improvement of approximately 3.5% compared to conventional methods and exhibit competitive performance on 4 distribution shift benchmarks.
Abstract（参考訳）: 少数の画像分類タスクでは、事前訓練された視覚言語モデル(CLIPなど)に基づく手法が大きな進歩を遂げている。既存の多くのアプローチでは、視覚的特徴やテキスト的特徴を直接クラスプロトタイプとして利用しているが、これらの特徴はそれぞれのクラスを適切に表現することができない。この制限は、事前学習された視覚言語モデルに固有のモダリティギャップから生じるものであり、視覚的モダリティとテキスト的モダリティの接続を弱める。このモダリティのギャップをなくし、テキスト特徴がクラスプロトタイプを完全に表現できるようにするために、単純で効率的なクロスモーダルマッピング法(CMM)を提案する。この手法は、画像の特徴をテキストの特徴空間にマッピングするために線形変換を用い、両方のモダリティが同じ特徴空間内で同等であることを保証する。それでも、モダリティギャップは、この写像の有効性を低下させる。さらに,画像特徴とクラステキスト特徴の空間的関係を最適化し,クラステキスト特徴が画像特徴のクラスプロトタイプとして自然に機能できるようにするために,三重項損失を導入する。 11ベンチマークの実験結果は,従来の方法と比較して平均3.5%改善し,4つの分散シフトベンチマーク上での競合性能を示した。

関連論文リスト

GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval [13.928213494843744]
クロスモーダル検索は、限られたトレーニングサンプルを用いたクロスモーダル表現の学習に焦点を当てている。既存の手法では、数発のクロスモーダルデータのマルチピーク分布を適切にモデル化できない場合が多い。画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントのための新しい戦略を導入する。
論文参考訳（メタデータ） (2025-05-19T16:25:55Z)
Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文参考訳（メタデータ） (2025-03-21T12:10:38Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
Mind the Gap Between Prototypes and Images in Cross-domain Finetuning [64.97317635355124]
プロトタイプと画像にそれぞれ異なる変換を適用するために,コントラスト型プロトタイプイメージ適応(CoPA)を提案する。 Meta-Datasetの実験では、CoPAが最先端のパフォーマンスをより効率的に達成できることが示されている。
論文参考訳（メタデータ） (2024-10-16T11:42:11Z)
ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両領域間のギャップを狭める効果的なアプローチを提案する。主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文参考訳（メタデータ） (2024-06-17T13:49:12Z)
NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation [2.2559617939136505]
マッチング戦略の有効性とロバスト性を高めるための,単純で訓練のない手法を提案する。中心となる概念は、マッチングプロセス中にランダムに特徴チャネル(0に設定する)をドロップすることである。この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。
論文参考訳（メタデータ） (2024-05-19T08:00:38Z)
Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。 4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文参考訳（メタデータ） (2024-02-28T09:46:56Z)
Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文参考訳（メタデータ） (2023-12-14T12:39:29Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文参考訳（メタデータ） (2023-07-28T10:26:28Z)
Text Descriptions are Compressive and Invariant Representations for Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文参考訳（メタデータ） (2023-07-10T03:06:45Z)
Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-06-21T13:03:47Z)
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2023-03-22T12:11:59Z)
A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2023-03-09T04:35:00Z)
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2022-05-19T13:11:24Z)
Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文参考訳（メタデータ） (2021-09-22T18:34:14Z)
Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文参考訳（メタデータ） (2021-03-10T13:08:09Z)
Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文参考訳（メタデータ） (2020-11-18T08:42:32Z)
Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。 PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文参考訳（メタデータ） (2020-08-10T04:33:17Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)
FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文参考訳（メタデータ） (2020-07-16T17:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。