Fugu-MT 論文翻訳(概要): SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

論文の概要: SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

arxiv url: http://arxiv.org/abs/2407.16344v1
Date: Tue, 23 Jul 2024 09:45:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 17:45:51.885854
Title: SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition
Title（参考訳）: SOAP: アクション認識のための時空間関係と動き情報キャプチャの強化
Authors: Wenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang, Lei Zhang,
Abstract要約: 従来のデータ駆動研究には大量のビデオサンプルが継続的に必要である。本稿では,Stemp-Oral frAme tuwenle (SOAP) と呼ばれるアクション認識のための新しいプラグイン・アンド・プレイアーキテクチャを提案する。 SOAP-Netは、SthSthV2、Kineetics、UCF101、SOAP51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成します。
参考スコア（独自算出の注目度）: 18.542942459854867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.
Abstract（参考訳）: 高フレームレート(HFR)ビデオは、時空間関係と動き情報密度を低減しつつ、きめ細かな表現を改善する。したがって、従来のデータ駆動トレーニングには大量のビデオサンプルが継続的に必要である。しかし、実世界のシナリオではサンプルが必ずしも十分ではないため、FSAR ( few-shot Action Recognition) 研究が促進される。近年のFSAR研究は、空間的特徴抽出後の時間的アライメントにより、サンプル内の空間的特徴と時間的特徴を分割し、ビデオサンプルの時空間的関係を構築する。また、密度を考慮せずに隣接するフレーム間の狭い視点で動き情報をキャプチャし、動き情報のキャプチャが不十分になる。そこで,本稿ではspatio-tempOral frAme tuPle enhancer (SOAP)と呼ばれるFSAR用の新しいプラグイン・アンド・プレイアーキテクチャを提案する。このようなアーキテクチャで設計したモデルは、SOAP-Netを指しています。特徴チャネル間の時間的接続と特徴の時空間的関係は,単純な特徴抽出ではなく考慮される。また、隣接するフレームよりも多くの動き情報を含む複数のフレームを持つフレームタプルを用いて、総合的な動き情報もキャプチャする。様々なフレーム数のフレームタプルを組み合わせることで、より広い視点が得られる。 SOAP-Netは、SthSthV2、Kinetics、UCF101、HMDB51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成している。大規模な経験的評価は、SOAPの競争力、プラガビリティ、一般化、堅牢性を強調します。コードはhttps://github.com/wenbohuang1002/SOAPで公開されている。

関連論文リスト

Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文参考訳（メタデータ） (2025-03-26T01:47:42Z)
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。 2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。 STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-20T09:16:20Z)
Video Frame Interpolation with Densely Queried Bilateral Correlation [52.823751291070906]
Video Frame Interpolation (VFI) は、既存のフレーム間で既存の中間フレームを合成することを目的としている。フローベースVFIアルゴリズムは、中間運動場を推定し、既存のフレームをワープする。本稿では,DQBC(Densely Queried Bilateral correlation, DQBC)を提案する。
論文参考訳（メタデータ） (2023-04-26T14:45:09Z)
Implicit Temporal Modeling with Learnable Alignment for Video Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。 ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文参考訳（メタデータ） (2023-04-20T17:11:01Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文参考訳（メタデータ） (2022-11-10T12:45:43Z)
FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文参考訳（メタデータ） (2022-09-22T21:15:58Z)
Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。 FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文参考訳（メタデータ） (2022-01-06T02:05:32Z)
PAN: Towards Fast Action Recognition via Learning Persistence of Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文参考訳（メタデータ） (2020-08-08T07:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。