論文の概要: Attention in Attention: Modeling Context Correlation for Efficient Video
Classification
- arxiv url: http://arxiv.org/abs/2204.09303v1
- Date: Wed, 20 Apr 2022 08:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:47:00.666520
- Title: Attention in Attention: Modeling Context Correlation for Efficient Video
Classification
- Title(参考訳): 注意の注意:効率的なビデオ分類のためのコンテキスト相関のモデリング
- Authors: Yanbin Hao, Shuo Wang, Pei Cao, Xinjian Gao, Tong Xu, Jinmeng Wu and
Xiangnan He
- Abstract要約: 本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
- 参考スコア(独自算出の注目度): 47.938500236792244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms have significantly boosted the performance of video
classification neural networks thanks to the utilization of perspective
contexts. However, the current research on video attention generally focuses on
adopting a specific aspect of contexts (e.g., channel, spatial/temporal, or
global context) to refine the features and neglects their underlying
correlation when computing attentions. This leads to incomplete context
utilization and hence bears the weakness of limited performance improvement. To
tackle the problem, this paper proposes an efficient attention-in-attention
(AIA) method for element-wise feature refinement, which investigates the
feasibility of inserting the channel context into the spatio-temporal attention
learning module, referred to as CinST, and also its reverse variant, referred
to as STinC. Specifically, we instantiate the video feature contexts as
dynamics aggregated along a specific axis with global average and max pooling
operations. The workflow of an AIA module is that the first attention block
uses one kind of context information to guide the gating weights calculation of
the second attention that targets at the other context. Moreover, all the
computational operations in attention units act on the pooled dimension, which
results in quite few computational cost increase ($<$0.02\%). To verify our
method, we densely integrate it into two classical video network backbones and
conduct extensive experiments on several standard video classification
benchmarks. The source code of our AIA is available at
\url{https://github.com/haoyanbin918/Attention-in-Attention}.
- Abstract(参考訳): 注意機構は、視点コンテキストの利用により、ビデオ分類ニューラルネットワークの性能を大幅に向上させた。
しかし、ビデオアテンションに関する現在の研究は一般的に、特定の文脈(チャンネル、空間的・時間的・グローバルな文脈など)を採用して特徴を洗練させ、コンピュータアテンションを計算する際にその基盤となる相関を無視することに焦点を当てている。
これは不完全なコンテキスト利用につながるため、限られたパフォーマンス改善の弱点を伴います。
そこで本稿では,cinstと呼ばれる時空間的注意学習モジュールにチャネルコンテキストを挿入する可能性と,その逆変種であるstincについて検討する。
具体的には、ダイナミックスがグローバル平均と最大プーリング操作で特定の軸に沿って集約されたビデオ機能コンテキストをインスタンス化する。
AIAモジュールのワークフローは、第1のアテンションブロックが1つの種類のコンテキスト情報を使用して、他のコンテキストをターゲットとする第2のアテンションのゲーティング重み計算を導くことである。
さらに、注意ユニット内の全ての計算処理はプール化された次元に作用し、計算コストの増大($0.02\%)は極めて少ない。
提案手法を検証するため,従来の2つのビデオネットワークのバックボーンに密に統合し,いくつかの標準ビデオ分類ベンチマークで広範な実験を行った。
AIAのソースコードは \url{https://github.com/haoyanbin918/Attention-in-Attention} で公開されている。
関連論文リスト
- HAtt-Flow: Hierarchical Attention-Flow Mechanism for Group Activity
Scene Graph Generation in Videos [8.10024991952397]
Group Activity Scene Graph (GASG) の生成は、コンピュータビジョンにおいて難しい課題である。
我々は,JRDBデータセットを拡張したGASGデータセットを,textitAppearance, Interaction, position, Relationship, situation属性を含むニュアンスなアノテーションで導入する。
我々はまた,GASG性能を向上させるために,フローネットワーク理論に根ざした革新的アプローチである textbfHierarchical textbfAttention-textbfFlow (HAtt-Flow) 機構を導入する。
論文 参考訳(メタデータ) (2023-11-28T16:04:54Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Towards Accurate RGB-D Saliency Detection with Complementary Attention
and Adaptive Integration [20.006932559837516]
近年,RGB画像と深度マップの相補的情報に基づく残差検出が盛んに行われている。
本稿では,補完的注意に基づく特徴集中と適応的クロスモーダル特徴融合を統合するための補完的注意・適応統合ネットワーク(CAAI-Net)を提案する。
CAAI-Netは効果的な唾液濃度検出モデルであり、4つの広く使用されているメトリクスで9つの最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-02-08T08:08:30Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Region-based Non-local Operation for Video Classification [11.746833714322154]
本稿では,地域別非局所的(RNL)操作を自己注意機構のファミリーとして提案する。
チャネルアテンションモジュールと提案したRNLを組み合わせることで,市販のCNNに組み込んだアテンションチェーンを設計し,エンドツーエンドのトレーニングを行う。
提案手法の実験結果は,他の注意機構よりも優れており,Something V1データセット上での最先端性能を実現している。
論文 参考訳(メタデータ) (2020-07-17T14:57:05Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。