論文の概要: Modeling Multi-modal Cross-interaction for Multi-label Few-shot Image Classification Based on Local Feature Selection
- arxiv url: http://arxiv.org/abs/2412.13732v2
- Date: Mon, 24 Feb 2025 14:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:36.565167
- Title: Modeling Multi-modal Cross-interaction for Multi-label Few-shot Image Classification Based on Local Feature Selection
- Title(参考訳): 局所特徴選択に基づくマルチラベルFew-shot画像分類のためのマルチモーダルクロスインタラクションのモデル化
- Authors: Kun Yan, Zied Bouraoui, Fangyun Wei, Chang Xu, Ping Wang, Shoaib Jameel, Steven Schockaert,
- Abstract要約: マルチラベル設定の重要な特徴は、イメージがしばしば複数のラベルを持つことである。
本稿では,ラベルのプロトタイプを段階的に改良する戦略を提案する。
COCO, PASCAL VOC, NUS-WIDE, iMaterialist による実験により, このモデルにより最先端のモデルが大幅に改善されることが示された。
- 参考スコア(独自算出の注目度): 55.144394711196924
- License:
- Abstract: The aim of multi-label few-shot image classification (ML-FSIC) is to assign semantic labels to images, in settings where only a small number of training examples are available for each label. A key feature of the multi-label setting is that an image often has several labels, which typically refer to objects appearing in different regions of the image. When estimating label prototypes, in a metric-based setting, it is thus important to determine which regions are relevant for which labels, but the limited amount of training data and the noisy nature of local features make this highly challenging. As a solution, we propose a strategy in which label prototypes are gradually refined. First, we initialize the prototypes using word embeddings, which allows us to leverage prior knowledge about the meaning of the labels. Second, taking advantage of these initial prototypes, we then use a Loss Change Measurement (LCM) strategy to select the local features from the training images (i.e. the support set) that are most likely to be representative of a given label. Third, we construct the final prototype of the label by aggregating these representative local features using a multi-modal cross-interaction mechanism, which again relies on the initial word embedding-based prototypes. Experiments on COCO, PASCAL VOC, NUS-WIDE, and iMaterialist show that our model substantially improves the current state-of-the-art.
- Abstract(参考訳): ML-FSIC(Multi-label few-shot image classification)の目的は、各ラベルに少数のトレーニング例しか使用できない設定において、セマンティックラベルを画像に割り当てることである。
マルチラベル設定の重要な特徴は、画像にしばしば複数のラベルがあり、通常、画像の異なる領域に現れるオブジェクトを指す。
ラベルのプロトタイプをメートル法で推定する場合、どの領域がどのラベルに関連しているかを判断することが重要であるが、限られたトレーニングデータと局所的な特徴のノイズの性質は、これを非常に困難にしている。
そこで本研究では,ラベルのプロトタイプを段階的に改良する手法を提案する。
まず、単語埋め込みを用いてプロトタイプを初期化し、ラベルの意味に関する事前知識を活用できるようにする。
第2に、これらの初期プロトタイプを利用すると、ロス変化測定(LCM)戦略を用いて、トレーニング画像(例えば、サポートセット)から、与えられたラベルを代表している可能性が最も高い局所的な特徴を選択する。
第3に、これらの代表的局所的特徴を多モーダルな相互相互作用機構を用いて集約することで、ラベルの最終プロトタイプを構築する。
COCO, PASCAL VOC, NUS-WIDE, iMaterialist による実験により, このモデルにより最先端のモデルが大幅に改善されることが示された。
関連論文リスト
- PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification [48.929583521641526]
マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-07-18T08:37:37Z) - Learning Disentangled Label Representations for Multi-label
Classification [39.97251974500034]
One-Shared-Feature-for-Multiple-Labels (OFML) は識別ラベルの特徴を学習するのに役立ちません。
我々は,One-specific-Feature-for-One-Label(OFOL)機構を導入し,新しいアンタングル付きラベル特徴学習フレームワークを提案する。
8つのデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-02T21:49:34Z) - A Deep Model for Partial Multi-Label Image Classification with Curriculum Based Disambiguation [42.0958430465578]
部分多重ラベル(PML)画像分類問題について検討する。
既存のPMLメソッドは通常、ノイズの多いラベルをフィルタリングするための曖昧な戦略を設計する。
本稿では,PMLの表現能力と識別能力を高めるための深層モデルを提案する。
論文 参考訳(メタデータ) (2022-07-06T02:49:02Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Inferring Prototypes for Multi-Label Few-Shot Image Classification with
Word Vector Guided Attention [45.6809084493491]
ML-FSIC (Multi-label few-shot Image Classification) は、画像に記述ラベルを割り当てるタスクである。
本稿では,ラベルの意味に関する事前知識の形式として,単語埋め込みを提案する。
我々のモデルは、モデルパラメータを微調整することなく、未確認ラベルのプロトタイプを推測することができる。
論文 参考訳(メタデータ) (2021-12-02T07:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。