論文の概要: SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2407.16344v2
- Date: Wed, 24 Jul 2024 08:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 12:45:47.636330
- Title: SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition
- Title(参考訳): SOAP: アクション認識のための時空間関係と動き情報キャプチャの強化
- Authors: Wenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang, Lei Zhang,
- Abstract要約: 従来のデータ駆動研究には大量のビデオサンプルが継続的に必要である。
本稿では,Stemp-Oral frAme tuwenle (SOAP) と呼ばれるアクション認識のための新しいプラグイン・アンド・プレイアーキテクチャを提案する。
SOAP-Netは、SthSthV2、Kineetics、UCF101、SOAP51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成します。
- 参考スコア(独自算出の注目度): 18.542942459854867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.
- Abstract(参考訳): 高フレームレート(HFR)ビデオは、時空間関係と動き情報密度を低減しつつ、きめ細かな表現を改善する。
したがって、従来のデータ駆動トレーニングには大量のビデオサンプルが継続的に必要である。
しかし、実世界のシナリオではサンプルが必ずしも十分ではないため、FSAR ( few-shot Action Recognition) 研究が促進される。
近年のFSAR研究は、空間的特徴抽出後の時間的アライメントにより、サンプル内の空間的特徴と時間的特徴を分割し、ビデオサンプルの時空間的関係を構築する。
また、密度を考慮せずに隣接するフレーム間の狭い視点で動き情報をキャプチャし、動き情報のキャプチャが不十分になる。
そこで,本稿ではspatio-tempOral frAme tuPle enhancer (SOAP)と呼ばれるFSAR用の新しいプラグイン・アンド・プレイアーキテクチャを提案する。
このようなアーキテクチャで設計したモデルは、SOAP-Netを指しています。
特徴チャネル間の時間的接続と特徴の時空間的関係は,単純な特徴抽出ではなく考慮される。
また、隣接するフレームよりも多くの動き情報を含む複数のフレームを持つフレームタプルを用いて、総合的な動き情報もキャプチャする。
様々なフレーム数のフレームタプルを組み合わせることで、より広い視点が得られる。
SOAP-Netは、SthSthV2、Kinetics、UCF101、HMDB51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成している。
大規模な経験的評価は、SOAPの競争力、プラガビリティ、一般化、堅牢性を強調します。
コードはhttps://github.com/wenbohuang1002/SOAPで公開されている。
関連論文リスト
- Video Frame Interpolation with Densely Queried Bilateral Correlation [52.823751291070906]
Video Frame Interpolation (VFI) は、既存のフレーム間で既存の中間フレームを合成することを目的としている。
フローベースVFIアルゴリズムは、中間運動場を推定し、既存のフレームをワープする。
本稿では,DQBC(Densely Queried Bilateral correlation, DQBC)を提案する。
論文 参考訳(メタデータ) (2023-04-26T14:45:09Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。