論文の概要: Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification
- arxiv url: http://arxiv.org/abs/2603.24528v1
- Date: Wed, 25 Mar 2026 17:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.400191
- Title: Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification
- Title(参考訳): 訓練不要なFew-Shot分類のためのクロスモーダルプロトタイプアライメントとミキシング
- Authors: Dipam Goswami, Simone Magistri, Gido M. van de Ven, Bartłomiej Twardowski, Andrew D. Bagdanov, Tinne Tuytelaars, Joost van de Weijer,
- Abstract要約: 本研究は,画像とテキストのプロトタイプを直接混合した場合の影響について考察する。
試作品の混合は, 収縮推定器として機能することを示す。
そこで本研究では,画像のプロトタイプをセマンティックテキスト埋め込み空間の主方向へ投影し,テキスト対応のセマンティックイメージ部分空間を得る。
- 参考スコア(独自算出の注目度): 52.48204114948899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) like CLIP are trained with the objective of aligning text and image pairs. To improve CLIP-based few-shot image classification, recent works have observed that, along with text embeddings, image embeddings from the training set are an important source of information. In this work we investigate the impact of directly mixing image and text prototypes for few-shot classification and analyze this from a bias-variance perspective. We show that mixing prototypes acts like a shrinkage estimator. Although mixed prototypes improve classification performance, the image prototypes still add some noise in the form of instance-specific background or context information. In order to capture only information from the image space relevant to the given classification task, we propose projecting image prototypes onto the principal directions of the semantic text embedding space to obtain a text-aligned semantic image subspace. These text-aligned image prototypes, when mixed with text embeddings, further improve classification. However, for downstream datasets with poor cross-modal alignment in CLIP, semantic alignment might be suboptimal. We show that the image subspace can still be leveraged by modeling the anisotropy using class covariances. We demonstrate that combining a text-aligned mixed prototype classifier and an image-specific LDA classifier outperforms existing methods across few-shot classification benchmarks.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、テキストとイメージペアの整列を目的として訓練されている。
CLIPベースの少数ショット画像分類を改善するために、最近の研究で、テキスト埋め込みとともに、トレーニングセットからのイメージ埋め込みが重要な情報ソースであることがわかった。
本研究は, 画像とテキストのプロトタイプを直接混合した場合の影響について検討し, バイアス分散の観点から解析する。
試作品の混合は, 収縮推定器として機能することを示す。
混合プロトタイプは分類性能を改善するが、画像プロトタイプは、インスタンス固有の背景情報やコンテキスト情報という形でいくつかのノイズを加える。
与えられた分類タスクに関連する画像空間からのみの情報を取得するために,テキスト対応のセマンティック画像サブスペースを得るために,セマンティックテキスト埋め込み空間の主方向に画像プロトタイプを投影することを提案する。
これらのテキスト整列画像プロトタイプは、テキスト埋め込みと混在すると、さらに分類を改善した。
しかし、CLIPにおけるクロスモーダルアライメントが不十分な下流データセットの場合、セマンティックアライメントは最適ではないかもしれない。
画像部分空間は、クラス共分散を用いた異方性モデリングにより、依然として活用可能であることを示す。
テキスト整列型混合プロトタイプ分類器と画像特化型LDA分類器を組み合わせることで,数ショットの分類ベンチマークにおいて既存の手法よりも優れていることを示す。
関連論文リスト
- Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation [13.640757848445835]
画素レベルのアノテーションのコストが高いため,画像レベルのラベル付き画像セグメント化の弱さが注目されている。
クラスアクティベーションマップ(CAM)を用いた伝統的な手法は、しばしば最も差別的な領域のみをハイライトする。
論文 参考訳(メタデータ) (2025-03-15T09:55:31Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。