論文の概要: Behavior Recognition Based on the Integration of Multigranular Motion
Features
- arxiv url: http://arxiv.org/abs/2203.03097v1
- Date: Mon, 7 Mar 2022 02:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:17:40.149870
- Title: Behavior Recognition Based on the Integration of Multigranular Motion
Features
- Title(参考訳): 多粒運動特徴の統合に基づく行動認識
- Authors: Lizong Zhang, Yiming Wang, Bei Hui, Xiujian Zhang, Sijuan Liu and
Shuxin Feng
- Abstract要約: マルチグラニュラ(IMG)運動特徴の統合に基づく新しい行動認識手法を提案する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
- 参考スコア(独自算出の注目度): 17.052997301790693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recognition of behaviors in videos usually requires a combinatorial
analysis of the spatial information about objects and their dynamic action
information in the temporal dimension. Specifically, behavior recognition may
even rely more on the modeling of temporal information containing short-range
and long-range motions; this contrasts with computer vision tasks involving
images that focus on the understanding of spatial information. However, current
solutions fail to jointly and comprehensively analyze short-range motion
between adjacent frames and long-range temporal aggregations at large scales in
videos. In this paper, we propose a novel behavior recognition method based on
the integration of multigranular (IMG) motion features. In particular, we
achieve reliable motion information modeling through the synergy of a channel
attention-based short-term motion feature enhancement module (CMEM) and a
cascaded long-term motion feature integration module (CLIM). We evaluate our
model on several action recognition benchmarks such as HMDB51,
Something-Something and UCF101. The experimental results demonstrate that our
approach outperforms the previous state-of-the-art methods, which confirms its
effectiveness and efficiency.
- Abstract(参考訳): ビデオにおける行動の認識は、通常、時間次元におけるオブジェクトに関する空間情報とその動的行動情報の組合せ解析を必要とする。
特に、行動認識は、近距離と遠距離の運動を含む時間的情報のモデリングに依存する可能性があり、これは空間情報の理解に焦点を当てた画像を含むコンピュータビジョンのタスクと対照的である。
しかし、現在の解法はビデオにおいて、隣接するフレームと長時間の時間的アグリゲーションの間の短距離運動を共同かつ包括的に分析することができない。
本稿では,多粒性(IMG)運動特徴の統合に基づく行動認識手法を提案する。
特に,チャネルアテンションに基づく短期動作機能拡張モジュール(CMEM)とケースド長期動作機能統合モジュール(CLIM)の相乗効果により,信頼性の高い動作情報モデリングを実現する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
実験の結果,本手法は従来の最先端手法よりも優れており,その有効性と効率性が確認できた。
関連論文リスト
- Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。