論文の概要: TSI: Temporal Saliency Integration for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2106.01088v1
- Date: Wed, 2 Jun 2021 11:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:27:45.226562
- Title: TSI: Temporal Saliency Integration for Video Action Recognition
- Title(参考訳): TSI:ビデオ行動認識のための時間的衛生統合
- Authors: Haisheng Su, Jinyuan Feng, Dongliang Wang, Weihao Gan, Wei Wu, Yu Qiao
- Abstract要約: 本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
- 参考スコア(独自算出の注目度): 32.18535820790586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient spatiotemporal modeling is an important yet challenging problem for
video action recognition. Existing state-of-the-art methods exploit motion
clues to assist in short-term temporal modeling through temporal difference
over consecutive frames. However, background noises will be inevitably
introduced due to the camera movement. Besides, movements of different actions
can vary greatly. In this paper, we propose a Temporal Saliency Integration
(TSI) block, which mainly contains a Salient Motion Excitation (SME) module and
a Cross-scale Temporal Integration (CTI) module. Specifically, SME aims to
highlight the motion-sensitive area through local-global motion modeling, where
the background suppression and pyramidal feature difference are conducted
successively between neighboring frames to capture motion dynamics with less
background noises. CTI is designed to perform multi-scale temporal modeling
through a group of separate 1D convolutions respectively. Meanwhile, temporal
interactions across different scales are integrated with attention mechanism.
Through these two modules, long short-term temporal relationships can be
encoded efficiently by introducing limited additional parameters. Extensive
experiments are conducted on several popular benchmarks (i.e.,
Something-Something v1 & v2, Kinetics-400, UCF-101, and HMDB-51), which
demonstrate the effectiveness and superiority of our proposed method.
- Abstract(参考訳): 効率的な時空間モデリングはビデオ行動認識において重要な課題である。
既存の最先端手法は、動きの手がかりを利用して、連続するフレーム上の時間差を通じて、短時間の時間的モデリングを支援する。
しかし、カメラの動きにより背景ノイズが必然的に導入される。
また、異なる行動の動作も様々である。
本稿では、主にSalient Motion Excitation(SME)モジュールとCTI(Cross-scale Temporal Integration)モジュールを含む、TSI(Temporal Saliency Integration)ブロックを提案する。
具体的には, 周辺フレーム間の背景抑圧とピラミッドの特徴差を連続的に行い, 背景雑音の少ない動きのダイナミックスを捉えることを目的としている。
ctiは、それぞれ別々の1次元畳み込みのグループを通してマルチスケールの時間モデルを実行するように設計されている。
一方、異なるスケールにわたる時間的相互作用は注意機構と統合される。
これら2つのモジュールを通じて、制限された追加パラメータを導入することで、長期間の時間関係を効率的にエンコードすることができる。
提案手法の有効性と優位性を示すために,いくつかの一般的なベンチマーク (Something v1 & v2, Kinetics-400, UCF-101, HMDB-51) を用いて実験を行った。
関連論文リスト
- A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Behavior Recognition Based on the Integration of Multigranular Motion
Features [17.052997301790693]
マルチグラニュラ(IMG)運動特徴の統合に基づく新しい行動認識手法を提案する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T02:05:26Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。