論文の概要: Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2301.07944v1
- Date: Thu, 19 Jan 2023 08:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 15:25:36.045878
- Title: Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition
- Title(参考訳): ファウショット行動認識のための空間的・時間的モデリングの再検討
- Authors: Jiazheng Xing, Mengmeng Wang, Boyu Mu, Yong Liu
- Abstract要約: スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
- 参考スコア(独自算出の注目度): 16.287968292213563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial and temporal modeling is one of the most core aspects of few-shot
action recognition. Most previous works mainly focus on long-term temporal
relation modeling based on high-level spatial representations, without
considering the crucial low-level spatial features and short-term temporal
relations. Actually, the former feature could bring rich local semantic
information, and the latter feature could represent motion characteristics of
adjacent frames, respectively. In this paper, we propose SloshNet, a new
framework that revisits the spatial and temporal modeling for few-shot action
recognition in a finer manner. First, to exploit the low-level spatial
features, we design a feature fusion architecture search module to
automatically search for the best combination of the low-level and high-level
spatial features. Next, inspired by the recent transformer, we introduce a
long-term temporal modeling module to model the global temporal relations based
on the extracted spatial appearance features. Meanwhile, we design another
short-term temporal modeling module to encode the motion characteristics
between adjacent frame representations. After that, the final predictions can
be obtained by feeding the embedded rich spatial-temporal features to a common
frame-level class prototype matcher. We extensively validate the proposed
SloshNet on four few-shot action recognition datasets, including
Something-Something V2, Kinetics, UCF101, and HMDB51. It achieves favorable
results against state-of-the-art methods in all datasets.
- Abstract(参考訳): 空間的および時間的モデリングは、数少ないアクション認識の最も重要な側面の1つである。
従来の研究のほとんどは、重要な低レベル空間特徴と短期時間関係を考慮せずに、高レベル空間表現に基づく長期時間関係モデリングに重点を置いている。
実際には、前者の機能は豊かな局所的な意味情報をもたらし、後者の機能は隣り合うフレームの動作特性をそれぞれ表現できる。
本稿では,数発動作認識のための空間的および時間的モデリングを,より微妙な方法で再検討する新しいフレームワークであるsloshnetを提案する。
まず,低レベル空間特徴を活用すべく,低レベル空間特徴と高レベル空間特徴の最適な組み合わせを自動的に検索する機能融合アーキテクチャ探索モジュールを設計した。
次に,近年のトランスフォーマーに触発されて,抽出した空間的外観特徴に基づいて,大域的時間関係をモデル化する長期時間モデリングモジュールを提案する。
一方,隣接フレーム間の動き特性をエンコードするために,新たな短期時間モデリングモジュールを設計した。
その後、組込み豊富な時空間特徴を共通のフレームレベルクラスプロトタイプマーカに供給することにより、最終的な予測が得られる。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
すべてのデータセットで最先端のメソッドに対して良好な結果が得られる。
関連論文リスト
- ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。