論文の概要: Efficient Spatialtemporal Context Modeling for Action Recognition
- arxiv url: http://arxiv.org/abs/2103.11190v1
- Date: Sat, 20 Mar 2021 14:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:59:53.458354
- Title: Efficient Spatialtemporal Context Modeling for Action Recognition
- Title(参考訳): 行動認識のための効率的な時空間文脈モデリング
- Authors: Congqi Cao, Yue Lu, Yifan Zhang, Dongmei Jiang and Yanning Zhang
- Abstract要約: 本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
- 参考スコア(独自算出の注目度): 42.30158166919919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual information plays an important role in action recognition. Local
operations have difficulty to model the relation between two elements with a
long-distance interval. However, directly modeling the contextual information
between any two points brings huge cost in computation and memory, especially
for action recognition, where there is an additional temporal dimension.
Inspired from 2D criss-cross attention used in segmentation task, we propose a
recurrent 3D criss-cross attention (RCCA-3D) module to model the dense
long-range spatiotemporal contextual information in video for action
recognition. The global context is factorized into sparse relation maps. We
model the relationship between points in the same line along the direction of
horizon, vertical and depth at each time, which forms a 3D criss-cross
structure, and duplicate the same operation with recurrent mechanism to
transmit the relation between points in a line to a plane finally to the whole
spatiotemporal space. Compared with the non-local method, the proposed RCCA-3D
module reduces the number of parameters and FLOPs by 25% and 11% for video
context modeling. We evaluate the performance of RCCA-3D with two latest action
recognition networks on three datasets and make a thorough analysis of the
architecture, obtaining the best way to factorize and fuse the relation maps.
Comparisons with other state-of-the-art methods demonstrate the effectiveness
and efficiency of our model.
- Abstract(参考訳): 文脈情報は行動認識において重要な役割を果たす。
ローカル操作は、長距離間隔の2つの要素間の関係をモデル化するのが困難である。
しかしながら、任意の2点間の文脈情報を直接モデル化することは、特に時間次元が増すアクション認識において、計算とメモリに大きなコストをもたらす。
セグメンテーションタスクで使用される2Dクリッスクロスアテンションからインスピレーションを得て,アクション認識のためのビデオ中の高密度長範囲時空間情報をモデル化するための3Dクリッスクロスアテンション(RCCA-3D)モジュールを提案する。
グローバルコンテキストはスパース関係マップに分解される。
水平方向,垂直方向,深さの各時間における同一線上の点間の関係をモデル化し,3次元クリスクロス構造を形成し,同じ操作をリカレント機構で再現し,ライン内の点間の関係を最終的に時空間全体へ伝達する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
RCCA-3Dと最近の2つの行動認識ネットワークの性能を3つのデータセットで評価し、アーキテクチャを徹底的に分析し、関係マップを分解・融合する最良の方法を得る。
他の最先端手法との比較により,本モデルの有効性と有効性を示す。
関連論文リスト
- Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization
for Efficient Video Classification [12.787763599624173]
本稿では,時間的ワンショットアグリゲーション(T-OSA)モジュールと深度分解成分D(2+1)Dからなる,VoV3Dと呼ばれる効率的な時間的モデリング3Dアーキテクチャを提案する。
時間モデリングの効率性と有効性により、VoV3D-Lは6倍のモデルパラメータと16倍の計算能力を有しており、SomesingとKineeticsの双方で最先端の時間モデリング手法に勝っている。
論文 参考訳(メタデータ) (2020-12-01T07:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。