論文の概要: KNN Transformer with Pyramid Prompts for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2410.10227v1
- Date: Mon, 14 Oct 2024 07:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:14:55.253089
- Title: KNN Transformer with Pyramid Prompts for Few-Shot Learning
- Title(参考訳): ファウショット学習のためのピラミッド型KNN変換器
- Authors: Wenhao Li, Qiangchang Wang, Peng Zhao, Yilong Yin,
- Abstract要約: Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
- 参考スコア(独自算出の注目度): 52.735070934075736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Learning (FSL) aims to recognize new classes with limited labeled data. Recent studies have attempted to address the challenge of rare samples with textual prompts to modulate visual features. However, they usually struggle to capture complex semantic relationships between textual and visual features. Moreover, vanilla self-attention is heavily affected by useless information in images, severely constraining the potential of semantic priors in FSL due to the confusion of numerous irrelevant tokens during interaction. To address these aforementioned issues, a K-NN Transformer with Pyramid Prompts (KTPP) is proposed to select discriminative information with K-NN Context Attention (KCA) and adaptively modulate visual features with Pyramid Cross-modal Prompts (PCP). First, for each token, the KCA only selects the K most relevant tokens to compute the self-attention matrix and incorporates the mean of all tokens as the context prompt to provide the global context in three cascaded stages. As a result, irrelevant tokens can be progressively suppressed. Secondly, pyramid prompts are introduced in the PCP to emphasize visual features via interactions between text-based class-aware prompts and multi-scale visual features. This allows the ViT to dynamically adjust the importance weights of visual features based on rich semantic information at different scales, making models robust to spatial variations. Finally, augmented visual features and class-aware prompts are interacted via the KCA to extract class-specific features. Consequently, our model further enhances noise-free visual representations via deep cross-modal interactions, extracting generalized visual representation in scenarios with few labeled samples. Extensive experiments on four benchmark datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): FSL(Few-Shot Learning)は、ラベル付きデータに制限のある新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
しかし、彼らは通常、テキスト的特徴と視覚的特徴の間の複雑な意味的関係を捉えるのに苦労する。
さらに、バニラ自己注意は画像の役に立たない情報の影響を強く受けており、相互作用中に多くの無関係なトークンが混同されるため、FSLにおける意味的先行の可能性を厳しく制限している。
これらの課題に対処するため、K-NN変換器(KTPP)が提案され、K-NNコンテキストアテンション(KCA)を用いて識別情報を選択し、Mraamid Cross-modal Prompts(PCP)を用いて視覚的特徴を適応的に調節する。
まず、各トークンについて、KCAは自己アテンション行列を計算するために最も関連性の高いトークンのみを選択し、すべてのトークンの平均をコンテキストプロンプトとして組み込んで、3つのケースでグローバルなコンテキストを提供する。
その結果、無関係なトークンを徐々に抑制することができる。
第二に、PCPでは、テキストベースのクラス認識プロンプトとマルチスケール視覚特徴との相互作用を通じて視覚的特徴を強調するためにピラミッドプロンプトが導入されている。
これにより、ViTは様々なスケールでリッチな意味情報に基づいて視覚的特徴の重み付けを動的に調整し、空間的変動に頑健にすることができる。
最後に、拡張視覚機能とクラス認識プロンプトはKCAを介して相互作用し、クラス固有の特徴を抽出する。
その結果,本モデルでは,ディープ・モーダル相互作用によるノイズフリーな視覚表現をさらに強化し,ラベル付きサンプルの少ないシナリオで一般化された視覚表現を抽出する。
4つのベンチマークデータセットの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Dissecting Query-Key Interaction in Vision Transformers [4.743574336827573]
視覚変換器における自己注意はしばしば知覚的なグループ化を行うと考えられている。
相互作用行列の特異値分解による問合せキーの相互作用の解析を行う。
論文 参考訳(メタデータ) (2024-04-04T20:06:07Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。