論文の概要: Spatial-Temporal Attention Network for Open-Set Fine-Grained Image
Recognition
- arxiv url: http://arxiv.org/abs/2211.13940v1
- Date: Fri, 25 Nov 2022 07:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:03:45.332357
- Title: Spatial-Temporal Attention Network for Open-Set Fine-Grained Image
Recognition
- Title(参考訳): オープンセット微細画像認識のための空間時間アテンションネットワーク
- Authors: Jiayin Sun, Hong Wang and Qiulei Dong
- Abstract要約: 空間的自己注意機構を持つ視覚変換器は、細粒度の異なる画像のカテゴリを識別するために正確な注意マップを学習できなかった。
本稿では,STANと呼ばれる細粒度特徴表現を学習するための時空間アテンションネットワークを提案する。
提案したSTAN-OSFGRは,9つの最先端のオープンセット認識法に優れる。
- 参考スコア(独自算出の注目度): 14.450381668547259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Triggered by the success of transformers in various visual tasks, the spatial
self-attention mechanism has recently attracted more and more attention in the
computer vision community. However, we empirically found that a typical vision
transformer with the spatial self-attention mechanism could not learn accurate
attention maps for distinguishing different categories of fine-grained images.
To address this problem, motivated by the temporal attention mechanism in
brains, we propose a spatial-temporal attention network for learning
fine-grained feature representations, called STAN, where the features learnt by
implementing a sequence of spatial self-attention operations corresponding to
multiple moments are aggregated progressively. The proposed STAN consists of
four modules: a self-attention backbone module for learning a sequence of
features with self-attention operations, a spatial feature self-organizing
module for facilitating the model training, a spatial-temporal feature learning
module for aggregating the re-organized features via a Long Short-Term Memory
network, and a context-aware module that is implemented as the forget block of
the spatial-temporal feature learning module for preserving/forgetting the
long-term memory by utilizing contextual information. Then, we propose a
STAN-based method for open-set fine-grained recognition by integrating the
proposed STAN network with a linear classifier, called STAN-OSFGR. Extensive
experimental results on 3 fine-grained datasets and 2 coarse-grained datasets
demonstrate that the proposed STAN-OSFGR outperforms 9 state-of-the-art
open-set recognition methods significantly in most cases.
- Abstract(参考訳): 様々な視覚的タスクにおけるトランスフォーマーの成功によって、空間的自己認識機構は近年、コンピュータビジョンコミュニティにおいてますます注目を集めている。
しかし,空間的自己着脱機構を有する典型的視覚トランスフォーマは,細粒画像のカテゴリを識別する正確な注意マップを学習できないことがわかった。
この問題に対処するため,脳内の時間的注意機構を動機としたSTANと呼ばれる微細な特徴表現を学習するための空間時間的注意ネットワークを提案し,複数のモーメントに対応する空間的自己注意操作のシーケンスを実装して学習した特徴を段階的に集約する。
The proposed STAN consists of four modules: a self-attention backbone module for learning a sequence of features with self-attention operations, a spatial feature self-organizing module for facilitating the model training, a spatial-temporal feature learning module for aggregating the re-organized features via a Long Short-Term Memory network, and a context-aware module that is implemented as the forget block of the spatial-temporal feature learning module for preserving/forgetting the long-term memory by utilizing contextual information.
そこで,提案したSTANネットワークを線形分類器(STAN-OSFGR)と統合し,開放された粒度認識のためのSTAN方式を提案する。
3つの細粒度データセットと2つの粗粒度データセットに関する広範囲な実験結果から,提案手法が9つの最先端オープンセット認識法を著しく上回っていることが示された。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - Spatio-Temporal Analysis of Facial Actions using Lifecycle-Aware Capsule
Networks [12.552355581481994]
AULA-Capsは、シーケンス内の関連する時間的セグメントに注目して、連続したフレーム間で学習する。
学習した特徴カプセルは、AUライフサイクルに応じて、空間的または時間的情報に選択的に集中するようにルーティングされる。
提案モデルはBP4DおよびGFTベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-17T18:36:38Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。