論文の概要: Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2406.11252v1
- Date: Mon, 17 Jun 2024 06:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:04:29.224077
- Title: Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning
- Title(参考訳): CLIPからオープンセマンティックスをマイニングする:Few-Shot Learningのためのリレーショナル・トランジション・パースペクティブ
- Authors: Cilin Yan, Haochen Wang, Xiaolong Jiang, Yao Hu, Xu Tang, Guoliang Kang, Efstratios Gavves,
- Abstract要約: そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
- 参考スコア(独自算出の注目度): 46.25534556546322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Vision-Language Pre-training(CLIP) demonstrates impressive zero-shot capability. The key to improve the adaptation of CLIP to downstream task with few exemplars lies in how to effectively model and transfer the useful knowledge embedded in CLIP. Previous work mines the knowledge typically based on the limited visual samples and close-set semantics (i.e., within target category set of downstream task). However, the aligned CLIP image/text encoders contain abundant relationships between visual features and almost infinite open semantics, which may benefit the few-shot learning but remains unexplored. In this paper, we propose to mine open semantics as anchors to perform a relation transition from image-anchor relationship to image-target relationship to make predictions. Specifically, we adopt a transformer module which takes the visual feature as "Query", the text features of the anchors as "Key" and the similarity matrix between the text features of anchor and target classes as "Value". In this way, the output of such a transformer module represents the relationship between the image and target categories, i.e., the classification predictions. To avoid manually selecting the open semantics, we make the [CLASS] token of input text embedding learnable. We conduct extensive experiments on eleven representative classification datasets. The results show that our method performs favorably against previous state-of-the-arts considering few-shot classification settings.
- Abstract(参考訳): Contrastive Vision-Language Pre-Training (CLIP) は印象的なゼロショット能力を示す。
CLIPの下流タスクへの適応性を改善する鍵は、CLIPに埋め込まれた有用な知識を効果的にモデル化し、転送する方法にある。
以前の研究は、典型的には限られた視覚サンプルと閉集合意味論(すなわち、下流タスクのターゲットカテゴリセット内)に基づいて知識を掘り下げている。
しかし、一致したCLIP画像/テキストエンコーダは、視覚的特徴とほぼ無限のオープンセマンティクスの間の豊富な関係を含んでいる。
本稿では,アンカーとしてオープンなセマンティクスを抽出し,画像とアンカーの関係から画像とターゲットの関係に遷移して予測を行う手法を提案する。
具体的には、視覚的特徴を"Query"として、アンカーのテキスト特徴を"Key"として、アンカーとターゲットクラスのテキスト特徴を"Value"として、類似度行列を"Value"として、トランスフォーマーモジュールを採用する。
このようにして、そのようなトランスモジュールの出力は、画像と対象カテゴリ、すなわち分類予測の関係を表す。
手動でオープンセマンティクスを選択するのを避けるために、入力テキストの[CLASS]トークンを学習可能にします。
我々は11の代表的な分類データセットについて広範な実験を行った。
提案手法は,少数ショットの分類設定を考慮し,従来の最先端技術に対して良好に機能することを示す。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。