論文の概要: Semantic Prompt for Few-Shot Image Recognition
- arxiv url: http://arxiv.org/abs/2303.14123v1
- Date: Fri, 24 Mar 2023 16:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:43:24.774954
- Title: Semantic Prompt for Few-Shot Image Recognition
- Title(参考訳): Few-Shot画像認識のための意味プロンプト
- Authors: Wentao Chen, Chenyang Si, Zhang Zhang, Liang Wang, Zilei Wang, Tieniu
Tan
- Abstract要約: 本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
- 参考スコア(独自算出の注目度): 76.68959583129335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning is a challenging problem since only a few examples are
provided to recognize a new class. Several recent studies exploit additional
semantic information, e.g. text embeddings of class names, to address the issue
of rare samples through combining semantic prototypes with visual prototypes.
However, these methods still suffer from the spurious visual features learned
from the rare support samples, resulting in limited benefits. In this paper, we
propose a novel Semantic Prompt (SP) approach for few-shot learning. Instead of
the naive exploitation of semantic information for remedying classifiers, we
explore leveraging semantic information as prompts to tune the visual feature
extraction network adaptively. Specifically, we design two complementary
mechanisms to insert semantic prompts into the feature extractor: one is to
enable the interaction between semantic prompts and patch embeddings along the
spatial dimension via self-attention, another is to supplement visual features
with the transformed semantic prompts along the channel dimension. By combining
these two mechanisms, the feature extractor presents a better ability to attend
to the class-specific features and obtains more generalized image
representations with merely a few support samples. Through extensive
experiments on four datasets, the proposed approach achieves promising results,
improving the 1-shot learning accuracy by 3.67% on average.
- Abstract(参考訳): 新しいクラスを認識するためにいくつかの例が提供されているだけで、ほとんどショット学習は難しい問題である。
いくつかの最近の研究は、セマンティックプロトタイプとビジュアルプロトタイプを組み合わせることで、稀なサンプルの問題に対処するために、クラス名のテキスト埋め込みのような追加のセマンティック情報を利用する。
しかし、これらの手法は、稀なサポートサンプルから得られた視覚的特徴に悩まされ、限られた利益をもたらす。
本稿では,単発学習のための新しい意味的プロンプト(sp)手法を提案する。
セマンティクス情報を利用した分類器の修正に代えて,視覚特徴抽出ネットワークを適応的にチューニングするための提案としてセマンティクス情報を活用することを検討する。
具体的には,特徴抽出器に意味的プロンプトを挿入する2つの補完機構を設計する。一つは意味的プロンプトと,自己アテンションによる空間的次元に沿ったパッチ埋め込みの相互作用を可能にすること,もうひとつはチャネル次元に沿って変換された意味的プロンプトで視覚的特徴を補うことである。
これらの2つのメカニズムを組み合わせることで、特徴抽出器はクラス固有の特徴によりよい対応能力を示し、少数のサポートサンプルでより一般的なイメージ表現を得ることができる。
4つのデータセットに関する広範な実験を通じて、提案手法は有望な結果を達成し、1ショットの学習精度を平均3.67%向上させる。
関連論文リスト
- Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot
Recognition [27.0842107128122]
属性誘導型アテンションモジュール (AGAM) を設計し, 属性を付加し, より識別的な特徴を学習する。
提案モジュールは,最先端性能を実現するため,単純なメートル法に基づくアプローチを大幅に改善することができる。
論文 参考訳(メタデータ) (2020-09-10T08:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。