論文の概要: Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips
- arxiv url: http://arxiv.org/abs/2112.01038v1
- Date: Thu, 2 Dec 2021 08:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:31:17.823757
- Title: Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips
- Title(参考訳): 時空間的注意の積み重ね:識別クリップ強調による一人称行動認識の改善
- Authors: Lijin Yang, Yifei Huang, Yusuke Sugano, Yoichi Sato
- Abstract要約: ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
- 参考スコア(独自算出の注目度): 39.29955809641396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person action recognition is a challenging task in video understanding.
Because of strong ego-motion and a limited field of view, many backgrounds or
noisy frames in a first-person video can distract an action recognition model
during its learning process. To encode more discriminative features, the model
needs to have the ability to focus on the most relevant part of the video for
action recognition. Previous works explored to address this problem by applying
temporal attention but failed to consider the global context of the full video,
which is critical for determining the relatively significant parts. In this
work, we propose a simple yet effective Stacked Temporal Attention Module
(STAM) to compute temporal attention based on the global knowledge across clips
for emphasizing the most discriminative features. We achieve this by stacking
multiple self-attention layers. Instead of naive stacking, which is
experimentally proven to be ineffective, we carefully design the input to each
self-attention layer so that both the local and global context of the video is
considered during generating the temporal attention weights. Experiments
demonstrate that our proposed STAM can be built on top of most existing
backbones and boost the performance in various datasets.
- Abstract(参考訳): 一人称行動認識はビデオ理解において難しい課題である。
強いエゴモーションと視野の限られたため、一人称ビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルを邪魔する可能性がある。
より識別的な特徴をエンコードするために、モデルはアクション認識のためにビデオの最重要部分に焦点を当てる能力を持つ必要がある。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、ビデオ全体のグローバルな文脈を考えることができず、これは比較的重要な部分を決定するのに重要である。
本稿では,クリップ全体の知識に基づいて時間的注意度を計算し,最も識別的な特徴を強調する,単純かつ効果的なスタック型時間的注意度モジュール(stam)を提案する。
我々は複数のセルフアテンション層を積み重ねることでこれを達成する。
実験的に非効率であることが証明されたナイーブ・スタッキングの代わりに、各自己注意層への入力を慎重に設計し、時間的注意重みを生成する際に、ビデオの局所的・グローバル的文脈の両方を考慮する。
実験により、提案したSTAMは既存のバックボーン上に構築でき、様々なデータセットのパフォーマンスを向上できることが示された。
関連論文リスト
- No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。
隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:10:47Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition [2.0349696181833337]
本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。
通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
論文 参考訳(メタデータ) (2021-03-18T23:40:28Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。