論文の概要: Beyond Class Tokens: LLM-guided Dominant Property Mining for Few-shot Classification
- arxiv url: http://arxiv.org/abs/2507.20511v2
- Date: Tue, 29 Jul 2025 07:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.85445
- Title: Beyond Class Tokens: LLM-guided Dominant Property Mining for Few-shot Classification
- Title(参考訳): クラストークンを超えて:LLM誘導によるいくつかのショット分類のための支配的資産マイニング
- Authors: Wei Zhuo, Runjie Luo, Wufeng Xue, Linlin Shen,
- Abstract要約: 少数ショット学習(Few-Shot Learning)は,少数の画像のみを用いて新しいクラスを認識できる一般化能力を開発しようとする試みである。
対照的な言語イメージに基づく最近のCLIPライクな手法は、クラス名のテキスト表現を利用して、目に見えない画像発見をすることで問題を軽減している。
そこで本研究では,クラストークン以外のコントラスト学習によるテキスト表現特性を探索する新しいFew-Shot Learning法(BCT-CLIP)を提案する。
- 参考スコア(独自算出の注目度): 31.300989699856583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot Learning (FSL), which endeavors to develop the generalization ability for recognizing novel classes using only a few images, faces significant challenges due to data scarcity. Recent CLIP-like methods based on contrastive language-image pertaining mitigate the issue by leveraging textual representation of the class name for unseen image discovery. Despite the achieved success, simply aligning visual representations to class name embeddings would compromise the visual diversity for novel class discrimination. To this end, we proposed a novel Few-Shot Learning (FSL) method (BCT-CLIP) that explores \textbf{dominating properties} via contrastive learning beyond simply using class tokens. Through leveraging LLM-based prior knowledge, our method pushes forward FSL with comprehensive structural image representations, including both global category representation and the patch-aware property embeddings. In particular, we presented a novel multi-property generator (MPG) with patch-aware cross-attentions to generate multiple visual property tokens, a Large-Language Model (LLM)-assistant retrieval procedure with clustering-based pruning to obtain dominating property descriptions, and a new contrastive learning strategy for property-token learning. The superior performances on the 11 widely used datasets demonstrate that our investigation of dominating properties advances discriminative class-specific representation learning and few-shot classification.
- Abstract(参考訳): FSL(Few-shot Learning)は、少数の画像のみを用いて新しいクラスを認識できる一般化能力を開発する試みであるが、データ不足により大きな課題に直面している。
最近のCLIPライクな手法は、クラス名のテキスト表現を利用して、目に見えない画像の発見によって問題を緩和する。
達成された成功にもかかわらず、単にクラス名埋め込みに視覚的表現を合わせるだけで、新しいクラス差別の視覚的多様性を損なうことになる。
そこで本研究では,クラストークン以外のコントラスト学習を通じて,テキストbf{dominate properties}を探索するFew-Shot Learning(FSL)手法を提案する。
LLMに基づく事前知識を活用することにより、グローバルなカテゴリ表現とパッチ対応プロパティの埋め込みを含む、総合的な構造的イメージ表現により、FSLを前進させる。
特に,複数の視覚的特性トークンを生成するためにパッチ対応のクロスアテンションを持つ新しいマルチプロパティジェネレータ(MPG)と,クラスタリングベースプルーニングを用いた大規模言語モデル(LLM)補助検索手法と,プロパティ記述の優位性を得るための新しいコントラスト学習戦略を提示した。
広く使用されている11のデータセットの優れた性能は、支配特性の調査が差別的なクラス固有の表現学習と少数ショット分類を前進させることを示している。
関連論文リスト
- InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-27T05:33:18Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Open-Set Representation Learning through Combinatorial Embedding [62.05670732352456]
ラベル付きクラスとラベルなしクラスの両方の例に基づく表現学習を通じて、データセットにおける新しい概念を識別することに興味がある。
異種ラベル空間上の複数の教師付きメタクラス分類器によって与えられる構成知識を用いて、自然に未知のクラス内のサンプルをクラスタリングする学習手法を提案する。
提案アルゴリズムは,未確認クラスの識別性の向上と,新しいクラスに一般化可能な既知のクラス表現の学習を併用して,新しい概念を探索する。
論文 参考訳(メタデータ) (2021-06-29T11:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。