論文の概要: Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot
Recognition
- arxiv url: http://arxiv.org/abs/2009.04724v3
- Date: Wed, 3 Feb 2021 07:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 03:46:45.590296
- Title: Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot
Recognition
- Title(参考訳): 少数点認識のための属性誘導および純粋視覚注意アライメント
- Authors: Siteng Huang, Min Zhang, Yachen Kang, Donglin Wang
- Abstract要約: 属性誘導型アテンションモジュール (AGAM) を設計し, 属性を付加し, より識別的な特徴を学習する。
提案モジュールは,最先端性能を実現するため,単純なメートル法に基づくアプローチを大幅に改善することができる。
- 参考スコア(独自算出の注目度): 27.0842107128122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of few-shot recognition is to recognize novel categories with a
limited number of labeled examples in each class. To encourage learning from a
supplementary view, recent approaches have introduced auxiliary semantic
modalities into effective metric-learning frameworks that aim to learn a
feature similarity between training samples (support set) and test samples
(query set). However, these approaches only augment the representations of
samples with available semantics while ignoring the query set, which loses the
potential for the improvement and may lead to a shift between the modalities
combination and the pure-visual representation. In this paper, we devise an
attributes-guided attention module (AGAM) to utilize human-annotated attributes
and learn more discriminative features. This plug-and-play module enables
visual contents and corresponding attributes to collectively focus on important
channels and regions for the support set. And the feature selection is also
achieved for query set with only visual information while the attributes are
not available. Therefore, representations from both sets are improved in a
fine-grained manner. Moreover, an attention alignment mechanism is proposed to
distill knowledge from the guidance of attributes to the pure-visual branch for
samples without attributes. Extensive experiments and analysis show that our
proposed module can significantly improve simple metric-based approaches to
achieve state-of-the-art performance on different datasets and settings.
- Abstract(参考訳): 少数ショット認識の目的は、各クラスにラベル付き例が限られている新しいカテゴリを認識することである。
補足的視点からの学習を促進するため、近年のアプローチでは、トレーニングサンプル(サポートセット)とテストサンプル(クエリセット)の機能類似性を学ぶことを目的とした効果的なメトリック学習フレームワークに、補助的なセマンティックモダリティを導入している。
しかし、これらのアプローチは、クエリセットを無視しながら、利用可能なセマンティクスでサンプルの表現を増強するだけで、改善の可能性を失い、モダリティの組み合わせと純粋視覚表現のシフトにつながる可能性がある。
本稿では,属性を指示したアテンションモジュール (agam) を考案し,アテンション属性を活用し,より識別的な特徴を学習する。
本発明のプラグアンドプレイモジュールは、視覚内容と対応する属性をまとめて、サポートセットの重要なチャネルとリージョンにフォーカスすることができる。
また、属性が利用できない場合、ビジュアル情報のみのクエリセットでも機能選択が可能となる。
したがって、両方の集合からの表現はきめ細かい方法で改善される。
さらに,属性のないサンプルに対して,属性の指導から純視覚分岐へ知識を蒸留する注意アライメント機構を提案する。
広範な実験と分析により,提案するモジュールは,さまざまなデータセットや設定で最先端のパフォーマンスを実現するための,単純なメトリックベースアプローチを大幅に改善できることが示された。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Spatial Cross-Attention Improves Self-Supervised Visual Representation
Learning [5.085461418671174]
サンプル間の空間的相互相関を考慮に入れた知識の注入を容易にするアドオンモジュールを提案する。
これにより、特徴レベルの位置や同クラスのインスタンス間の相互類似性を含むクラス内情報を蒸留することが可能になる。
論文 参考訳(メタデータ) (2022-06-07T21:14:52Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Shaping Visual Representations with Attributes for Few-Shot Learning [5.861206243996454]
少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。
近年,メートル法に基づく数ショット学習法は有望な性能を達成している。
本稿では,属性型学習(ASL)を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:16:19Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。