論文の概要: Class Semantics-based Attention for Action Detection
- arxiv url: http://arxiv.org/abs/2109.02613v1
- Date: Mon, 6 Sep 2021 17:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:33:32.450236
- Title: Class Semantics-based Attention for Action Detection
- Title(参考訳): 行動検出のためのクラスセマンティクスに基づく注意
- Authors: Deepak Sridhar, Niamul Quader, Srikanth Muralidharan, Yaoxin Li, Peng
Dai, Juwei Lu
- Abstract要約: アクションローカライゼーションネットワークは、しばしば機能エンコーダサブネットワークとローカライゼーションサブネットワークとして構成される。
本稿では,クラスセマンティックス・ベース・アテンション(CSA, Class Semantics-based Attention)という新しいアテンション・メカニズムを提案する。
我々の注意機構は、アクション検出タスクにおけるシャープ・アンド・エキサイティングのような、事前の自己注意モジュールよりも優れています。
- 参考スコア(独自算出の注目度): 10.69685258736244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action localization networks are often structured as a feature encoder
sub-network and a localization sub-network, where the feature encoder learns to
transform an input video to features that are useful for the localization
sub-network to generate reliable action proposals. While some of the encoded
features may be more useful for generating action proposals, prior action
localization approaches do not include any attention mechanism that enables the
localization sub-network to attend more to the more important features. In this
paper, we propose a novel attention mechanism, the Class Semantics-based
Attention (CSA), that learns from the temporal distribution of semantics of
action classes present in an input video to find the importance scores of the
encoded features, which are used to provide attention to the more useful
encoded features. We demonstrate on two popular action detection datasets that
incorporating our novel attention mechanism provides considerable performance
gains on competitive action detection models (e.g., around 6.2% improvement
over BMN action detection baseline to obtain 47.5% mAP on the THUMOS-14
dataset), and a new state-of-the-art of 36.25% mAP on the ActivityNet v1.3
dataset. Further, the CSA localization model family which includes BMN-CSA, was
part of the second-placed submission at the 2021 ActivityNet action
localization challenge. Our attention mechanism outperforms prior
self-attention modules such as the squeeze-and-excitation in action detection
task. We also observe that our attention mechanism is complementary to such
self-attention modules in that performance improvements are seen when both are
used together.
- Abstract(参考訳): アクションローカライズネットワークは、しばしば、機能エンコーダサブネットワークとローカライズサブネットワークとして構成され、機能エンコーダは、入力されたビデオを、信頼できるアクションプロポーザルを生成するために、ローカライズサブネットワークに有用な機能に変換することを学ぶ。
符号化された機能のいくつかはアクションプロポーザルを生成するのに有用であるが、事前のアクションローカライゼーションアプローチには、ローカライゼーションサブネットワークがより重要な機能にもっと参加できるような注意機構が一切含まれていない。
本稿では、入力ビデオに存在するアクションクラスの意味論の時間的分布から学習し、符号化された特徴の重要点を見つけるための新しい注意機構であるクラスセマンティックス・アテンション(CSA)を提案する。
我々は、我々の新しい注意機構を取り入れた2つの一般的なアクション検出データセットについて、競合するアクション検出モデル(例えば、BMNアクション検出ベースラインを約6.2%改善してTHUMOS-14データセットで47.5% mAPを得る)と、ActivityNet v1.3データセットで36.25% mAPの新たな最先端技術を提供する。
さらに、BMN-CSAを含むCSAローカライゼーションモデルファミリは、2021年のActivityNetアクションローカライゼーションチャレンジで第2位となった。
注意機構は、動作検出タスクにおける押し出し・押出しなどの自己着脱モジュールよりも優れる。
また,これらの自己着脱モジュールを補完する機構として,両者が併用された際に性能改善が見られることを確認した。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - LAA-Net: Localized Artifact Attention Network for Quality-Agnostic and Generalizable Deepfake Detection [12.567069964305265]
本稿では,LAA-Net(Localized Artifact Attention Network)と呼ばれる高品質なディープフェイク検出手法を提案する。
高品質なディープフェイク検出のための既存の方法は、主に暗黙の注意機構を備えた教師付きバイナリ分類器に基づいている。
いくつかのベンチマークで行った実験は、AUC(Area Under the Curve)とAP(Average Precision)の観点から、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-01-24T23:42:08Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Action Unit Memory Network for Weakly Supervised Temporal Action
Localization [124.61981738536642]
弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。
AUMN(Action Unit Memory Network)は、時間的行動の弱い局在化を監督する。
論文 参考訳(メタデータ) (2021-04-29T06:19:44Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - One Point is All You Need: Directional Attention Point for Feature
Learning [51.44837108615402]
ポイントクラウド分類やセグメンテーションなどのタスクのポイント機能強化を学習するための新しい注意ベースのメカニズムを提示する。
我々は,最先端のクラウド分類とセグメンテーションネットワークに注目機構を組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-12-11T11:45:39Z) - Attention-Guided Network for Iris Presentation Attack Detection [13.875545441867137]
本稿では注意誘導型アイリス提示攻撃検出(AG-PAD)を提案する。
JHU-APLプロプライエタリデータセットとベンチマークのLivDet-Iris-2017データセットの両方を含む実験は、提案手法が有望な結果をもたらすことを示唆している。
論文 参考訳(メタデータ) (2020-10-23T19:23:51Z) - Attention as Activation [4.265244011052538]
本稿では,アクティベーション機能とアテンション機構の統一として,アテンショナルアクティベーションユニット(ATAC)と呼ばれる新しいタイプのアクティベーションユニットを提案する。
畳み込みネットワークにおいて、よく知られた整流線形ユニットをATAC単位に置き換えることにより、より優れた性能を持つ完全注意ネットワークを構築することができる。
論文 参考訳(メタデータ) (2020-07-15T14:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。