論文の概要: Alignment-guided Temporal Attention for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2210.00132v1
- Date: Fri, 30 Sep 2022 23:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:15:30.818025
- Title: Alignment-guided Temporal Attention for Video Action Recognition
- Title(参考訳): 映像動作認識のためのアライメント誘導時間注意
- Authors: Yizhou Zhao, Zhenyang Li, Xun Guo, Yan Lu
- Abstract要約: フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。
隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
- 参考スコア(独自算出の注目度): 18.5171795689609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal modeling is crucial for various video learning tasks. Most recent
approaches employ either factorized (2D+1D) or joint (3D) spatial-temporal
operations to extract temporal contexts from the input frames. While the former
is more efficient in computation, the latter often obtains better performance.
In this paper, we attribute this to a dilemma between the sufficiency and the
efficiency of interactions among various positions in different frames. These
interactions affect the extraction of task-relevant information shared among
frames. To resolve this issue, we prove that frame-by-frame alignments have the
potential to increase the mutual information between frame representations,
thereby including more task-relevant information to boost effectiveness. Then
we propose Alignment-guided Temporal Attention (ATA) to extend 1-dimensional
temporal attention with parameter-free patch-level alignments between
neighboring frames. It can act as a general plug-in for image backbones to
conduct the action recognition task without any model-specific design.
Extensive experiments on multiple benchmarks demonstrate the superiority and
generality of our module.
- Abstract(参考訳): 時間モデリングは様々なビデオ学習タスクに不可欠である。
最近のアプローチでは、入力フレームから時間コンテキストを抽出するために、分解(2D+1D)または結合(3D)時空間演算を用いる。
前者は計算効率が良いが、後者は性能が良くなることが多い。
本稿では,異なるフレームにおける様々な位置間の相互作用の効率と充足率のジレンマに起因する。
これらの相互作用は、フレーム間で共有されるタスク関連情報の抽出に影響を及ぼす。
この問題を解決するために,フレーム単位のアライメントがフレーム表現間の相互情報を増加させる可能性を持つことを実証し,その効果を高めるためのタスク関連情報を含める。
そこで我々は,隣接フレーム間のパラメータフリーパッチレベルアライメントで1次元時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
イメージバックボーンのための一般的なプラグインとして機能し、モデル固有の設計なしでアクション認識タスクを実行することができる。
複数のベンチマークでの大規模な実験は、モジュールの優越性と一般性を示している。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。