論文の概要: Inferring Prototypes for Multi-Label Few-Shot Image Classification with
Word Vector Guided Attention
- arxiv url: http://arxiv.org/abs/2112.01037v1
- Date: Thu, 2 Dec 2021 07:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:06:01.313994
- Title: Inferring Prototypes for Multi-Label Few-Shot Image Classification with
Word Vector Guided Attention
- Title(参考訳): 単語ベクトルに注意を向けたマルチラベル・マイノショット画像分類のためのプロトタイプの推算
- Authors: Kun Yan, Chenbin Zhang, Jun Hou, Ping Wang, Zied Bouraoui, Shoaib
Jameel, Steven Schockaert
- Abstract要約: ML-FSIC (Multi-label few-shot Image Classification) は、画像に記述ラベルを割り当てるタスクである。
本稿では,ラベルの意味に関する事前知識の形式として,単語埋め込みを提案する。
我々のモデルは、モデルパラメータを微調整することなく、未確認ラベルのプロトタイプを推測することができる。
- 参考スコア(独自算出の注目度): 45.6809084493491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label few-shot image classification (ML-FSIC) is the task of assigning
descriptive labels to previously unseen images, based on a small number of
training examples. A key feature of the multi-label setting is that images
often have multiple labels, which typically refer to different regions of the
image. When estimating prototypes, in a metric-based setting, it is thus
important to determine which regions are relevant for which labels, but the
limited amount of training data makes this highly challenging. As a solution,
in this paper we propose to use word embeddings as a form of prior knowledge
about the meaning of the labels. In particular, visual prototypes are obtained
by aggregating the local feature maps of the support images, using an attention
mechanism that relies on the label embeddings. As an important advantage, our
model can infer prototypes for unseen labels without the need for fine-tuning
any model parameters, which demonstrates its strong generalization abilities.
Experiments on COCO and PASCAL VOC furthermore show that our model
substantially improves the current state-of-the-art.
- Abstract(参考訳): ML-FSIC (Multi-label few-shot image classification) は、少数のトレーニング例に基づいて、以前は目に見えない画像に記述ラベルを割り当てるタスクである。
マルチラベル設定の重要な特徴は、画像が通常、画像の異なる領域を参照する複数のラベルを持つことである。
プロトタイプを推定する場合、メトリックベースの設定では、どのリージョンがどのラベルに関連しているかを判断することが重要ですが、限られたトレーニングデータの量でこれを非常に困難にしています。
そこで本稿では,ラベルの意味に関する事前知識の形式として単語埋め込みの利用を提案する。
特に、視覚プロトタイプは、ラベル埋め込みに依存する注意機構を用いて、サポート画像の局所的な特徴マップを集約することによって得られる。
重要な利点として,モデルパラメータの微調整を必要とせず,未知ラベルのプロトタイプを推測することが可能であり,その強力な一般化能力を示す。
さらに,COCOおよびPASCAL VOCの実験により,我々のモデルが最先端技術を改善することを示す。
関連論文リスト
- PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification [48.929583521641526]
マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-07-18T08:37:37Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - A Deep Model for Partial Multi-Label Image Classification with Curriculum Based Disambiguation [42.0958430465578]
部分多重ラベル(PML)画像分類問題について検討する。
既存のPMLメソッドは通常、ノイズの多いラベルをフィルタリングするための曖昧な戦略を設計する。
本稿では,PMLの表現能力と識別能力を高めるための深層モデルを提案する。
論文 参考訳(メタデータ) (2022-07-06T02:49:02Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - SCIDA: Self-Correction Integrated Domain Adaptation from Single- to
Multi-label Aerial Images [30.12949142271464]
画像分類のためのほとんどの公開データセットは単一のラベルでできており、画像は本質的に日々の生活の中でマルチラベル化されている。
自動多言語学習のための新しい統合ドメイン適応法(SCIDA)を提案する。
SCIDAは、大規模で公開可能なシングルラベル画像から、マルチラベル画像分類モデルを自動的に学習する弱い教師付きである。
論文 参考訳(メタデータ) (2021-08-15T20:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。