論文の概要: Hybrid Routing Transformer for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2203.15310v1
- Date: Tue, 29 Mar 2022 07:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 04:31:33.503155
- Title: Hybrid Routing Transformer for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のためのハイブリッドルーティングトランス
- Authors: De Cheng, Gerong Wang, Bo Wang, Qiang Zhang, Jungong Han, Dingwen
Zhang
- Abstract要約: 本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
- 参考スコア(独自算出の注目度): 83.64532548391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot learning (ZSL) aims to learn models that can recognize unseen image
semantics based on the training of data with seen semantics. Recent studies
either leverage the global image features or mine discriminative local patch
features to associate the extracted visual features to the semantic attributes.
However, due to the lack of the necessary top-down guidance and semantic
alignment for ensuring the model attending to the real attribute-correlation
regions, these methods still encounter a significant semantic gap between the
visual modality and the attribute modality, which makes their prediction on
unseen semantics unreliable. To solve this problem, this paper establishes a
novel transformer encoder-decoder model, called hybrid routing transformer
(HRT). In HRT encoder, we embed an active attention, which is constructed by
both the bottom-up and the top-down dynamic routing pathways to generate the
attribute-aligned visual feature. While in HRT decoder, we use static routing
to calculate the correlation among the attribute-aligned visual features, the
corresponding attribute semantics, and the class attribute vectors to generate
the final class label predictions. This design makes the presented transformer
model a hybrid of 1) top-down and bottom-up attention pathways and 2) dynamic
and static routing pathways. Comprehensive experiments on three widely-used
benchmark datasets, namely CUB, SUN, and AWA2, are conducted. The obtained
experimental results demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): zero-shot learning (zsl) は、見えない画像の意味を認識できるモデルを学習することを目的としている。
近年の研究では、グローバルイメージの特徴や、抽出された視覚的特徴とセマンティック属性を関連付けるために、局所パッチの特徴をマイニングする。
しかしながら、実際の属性相関領域にモデルが確実に従うために必要なトップダウンガイダンスやセマンティクスアライメントが欠如しているため、これらの手法は依然として視覚的モダリティと属性モダリティの間に重大な意味的ギャップに遭遇しており、セマンティクスの認識できない予測は信頼できない。
この問題を解決するために,Hybrid routing transformer (HRT) と呼ばれる新しいトランス変換器デコーダモデルを構築した。
HRTエンコーダには、ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションが組み込まれ、属性に沿った視覚的特徴が生成される。
HRTデコーダでは,属性に沿った視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終的なクラスラベル予測を生成する。
この設計は、提示されたトランスフォーマーモデルをハイブリッドにする
1)トップダウン及びボトムアップ注意経路
2)動的および静的なルーティング経路。
CUB, SUN, AWA2という, 広く使用されている3つのベンチマークデータセットに関する総合実験を行った。
その結果,提案手法の有効性が実証された。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - QuadFormer: Quadruple Transformer for Unsupervised Domain Adaptation in
Power Line Segmentation of Aerial Images [12.840195641761323]
ドメイン適応型セマンティックセグメンテーションのための新しいフレームワークを提案する。
階層的な四重変圧器は、伝達可能なコンテキストに適応するために、クロスアテンションと自己アテンションのメカニズムを組み合わせる。
ARPLSynとARPLRealの2つのデータセットを提示し、教師なし領域適応電力線分割の研究をさらに進める。
論文 参考訳(メタデータ) (2022-11-29T03:15:27Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。