論文の概要: Mind the Gap Between Prototypes and Images in Cross-domain Finetuning
- arxiv url: http://arxiv.org/abs/2410.12474v2
- Date: Sun, 20 Oct 2024 08:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:04.612152
- Title: Mind the Gap Between Prototypes and Images in Cross-domain Finetuning
- Title(参考訳): クロスドメインファインタニングにおけるプロトタイプとイメージのギャップ
- Authors: Hongduan Tian, Feng Liu, Zhanke Zhou, Tongliang Liu, Chengqi Zhang, Bo Han,
- Abstract要約: プロトタイプと画像にそれぞれ異なる変換を適用するために,コントラスト型プロトタイプイメージ適応(CoPA)を提案する。
Meta-Datasetの実験では、CoPAが最先端のパフォーマンスをより効率的に達成できることが示されている。
- 参考スコア(独自算出の注目度): 64.97317635355124
- License:
- Abstract: In cross-domain few-shot classification (CFC), recent works mainly focus on adapting a simple transformation head on top of a frozen pre-trained backbone with few labeled data to project embeddings into a task-specific metric space where classification can be performed by measuring similarities between image instance and prototype representations. Technically, an assumption implicitly adopted in such a framework is that the prototype and image instance embeddings share the same representation transformation. However, in this paper, we find that there naturally exists a gap, which resembles the modality gap, between the prototype and image instance embeddings extracted from the frozen pre-trained backbone, and simply applying the same transformation during the adaptation phase constrains exploring the optimal representations and shrinks the gap between prototype and image representations. To solve this problem, we propose a simple yet effective method, contrastive prototype-image adaptation (CoPA), to adapt different transformations respectively for prototypes and images similarly to CLIP by treating prototypes as text prompts. Extensive experiments on Meta-Dataset demonstrate that CoPA achieves the state-of-the-art performance more efficiently. Meanwhile, further analyses also indicate that CoPA can learn better representation clusters, enlarge the gap, and achieve minimal validation loss at the enlarged gap.
- Abstract(参考訳): クロスドメイン・ショット分類(CFC)において、最近の研究は、画像インスタンスとプロトタイプ表現の類似性を測定することで分類を行うことができるタスク固有のメートル法空間に、ラベル付きデータが少なく、凍結したトレーニング済みのバックボーンの上に単純な変換ヘッドを投影することに焦点を当てている。
技術的には、そのようなフレームワークで暗黙的に採用されている仮定は、プロトタイプとイメージインスタンスの埋め込みは同じ表現変換を共有することである。
しかし,本論文では,凍結事前学習したバックボーンから抽出したプロトタイプとイメージインスタンスの埋め込みと,最適な表現を探索し,プロトタイプと画像表現のギャップを縮めるための適応位相制約において,同じ変換を単に適用するだけで,モダリティギャップに類似したギャップが自然に存在することを見出した。
そこで本研究では,プロトタイプをテキストプロンプトとして扱うことにより,プロトタイプとCLIPに類似した画像に対して,それぞれ異なる変換を適応させる,シンプルで効果的なプロトタイプ画像適応法を提案する。
Meta-Datasetに関する大規模な実験は、CoPAが最先端のパフォーマンスをより効率的に達成していることを示している。
一方、さらに分析した結果、CoPAはより良い表現クラスタを学習し、ギャップを拡大し、拡大したギャップで最小限のバリデーション損失を達成できることが示された。
関連論文リスト
- Interpretable Image Classification with Adaptive Prototype-based Vision Transformers [37.62530032165594]
本稿では,ディープラーニングとケースベース推論を組み合わせた画像分類手法であるProtoViTを提案する。
我々のモデルは、視覚変換器(ViT)のバックボーンをプロトタイプベースモデルに統合し、空間的に変形したプロトタイプを提供する。
実験の結果,本モデルでは既存のプロトタイプモデルよりも高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-28T04:33:28Z) - Correlation Weighted Prototype-based Self-Supervised One-Shot Segmentation of Medical Images [12.365801596593936]
医用画像セグメンテーションは、十分な注釈付きデータが入手できない領域の1つである。
スーパーピクセルから生成された擬似ラベルを用いた,プロトタイプベースのワンショット学習フレームワークを提案する。
提案手法は,最先端の手法と同等に機能することを示す。
論文 参考訳(メタデータ) (2024-08-12T15:38:51Z) - Semi-supervised Semantic Segmentation with Prototype-based Consistency
Regularization [20.4183741427867]
半教師付きセマンティックセグメンテーションでは、制限された注釈付き画像からラベルなし画像へラベル情報を伝達する必要がある。
このようなピクセルごとの予測タスクの課題は、クラス内の大きなバリエーションである。
本稿では,ラベルの伝搬困難を緩和するために,クラス内特徴の分布を正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T01:38:01Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。
プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。
PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文 参考訳(メタデータ) (2020-08-10T04:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。