論文の概要: Vocabulary-free few-shot learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.04005v1
- Date: Wed, 04 Jun 2025 14:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.382698
- Title: Vocabulary-free few-shot learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための語彙なし数ショット学習
- Authors: Maxime Zanella, Clément Fuchs, Ismail Ben Ayed, Christophe De Vleeschouwer,
- Abstract要約: VLM(Vision-Language Models)のための語彙なし数ショット学習を導入する。
類似度マッピング(SiM)は、一連の一般的なプロンプトで類似度スコアのみに基づいてターゲットインスタンスを分類する。
我々は,この手法が,語彙のない数発学習における今後の研究の基盤となると信じている。
- 参考スコア(独自算出の注目度): 23.972884634610413
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in few-shot adaptation for Vision-Language Models (VLMs) have greatly expanded their ability to generalize across tasks using only a few labeled examples. However, existing approaches primarily build upon the strong zero-shot priors of these models by leveraging carefully designed, task-specific prompts. This dependence on predefined class names can restrict their applicability, especially in scenarios where exact class names are unavailable or difficult to specify. To address this limitation, we introduce vocabulary-free few-shot learning for VLMs, a setting where target class instances - that is, images - are available but their corresponding names are not. We propose Similarity Mapping (SiM), a simple yet effective baseline that classifies target instances solely based on similarity scores with a set of generic prompts (textual or visual), eliminating the need for carefully handcrafted prompts. Although conceptually straightforward, SiM demonstrates strong performance, operates with high computational efficiency (learning the mapping typically takes less than one second), and provides interpretability by linking target classes to generic prompts. We believe that our approach could serve as an important baseline for future research in vocabulary-free few-shot learning. Code is available at https://github.com/MaxZanella/vocabulary-free-FSL.
- Abstract(参考訳): VLM(Vision-Language Models)の少数ショット適応の最近の進歩は、いくつかのラベル付き例を用いてタスクを一般化する能力を大幅に拡張している。
しかし、既存のアプローチは主に、注意深く設計されたタスク固有のプロンプトを活用することで、これらのモデルの強力なゼロショット先行の上に構築されている。
この定義済みのクラス名への依存は、特に正確なクラス名が利用できない、あるいは指定が難しいシナリオにおいて、適用性を制限することができる。
この制限に対処するため、VLM には語彙なしの少数ショット学習を導入し、ターゲットクラスインスタンス - 画像 - が利用可能だが、対応する名前がない設定を行う。
類似度スコアのみに基づいて目的のインスタンスを分類し,一組の汎用的なプロンプト(テキストやビジュアル)で分類し,手作りのプロンプトを慎重に必要としない,シンプルで効果的なベースラインであるSimisity Mapping (SiM)を提案する。
概念的には単純ではあるが、SiMは高い性能を示し、高い計算効率で動作し(マッピングの学習は通常1秒未満である)、ターゲットクラスをジェネリックプロンプトにリンクすることで解釈性を提供する。
我々は,この手法が,語彙のない数発学習における今後の研究の基盤となると信じている。
コードはhttps://github.com/MaxZanella/vocabulary-free-FSLで入手できる。
関連論文リスト
- Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - Auto-Vocabulary Semantic Segmentation [13.410217680999462]
Open-Vocabulary (OVS) メソッドは、固定語彙に頼ることなくセマンティックセグメンテーションを実行できる。
本稿では,自動語彙セマンティック(AVS, Auto-Vocabulary Semantic)を提案する。
我々のアプローチであるAutoSegは、意味的に強化されたBLIP埋め込みを使用して関連するクラス名を自律的に識別し、その後セグメント化するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text
Classification [9.9875634964736]
テキスト分類は、クラスごとにラベル付きテキストインスタンスがほとんどない、目に見えないクラスに一般化するのに苦労する。
本稿では,メタラーニングに基づくMGIMNを提案する。
論文 参考訳(メタデータ) (2022-04-11T08:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。