論文の概要: MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2405.02077v2
- Date: Sat, 11 May 2024 15:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 21:03:09.579286
- Title: MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition
- Title(参考訳): MVP-Shot:Few-Shotアクション認識のためのマルチ速度プログレッシブアライメントフレームワーク
- Authors: Hongyu Qu, Rui Yan, Xiangbo Shu, Hailiang Gao, Peng Huang, Guo-Sen Xie,
- Abstract要約: MVP-Shotは、セマンティック関連アクション機能をマルチ速度レベルで学習し、調整するフレームワークである。
MVFAモジュールは、サポートからのフィーチャと、異なる速度スケールのクエリビデオの類似度を測定する。
PSTIモジュールは、速度調整されたテキスト情報をビデオ機能に注入する。
- 参考スコア(独自算出の注目度): 36.426688592783975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent few-shot action recognition (FSAR) methods achieve promising performance by performing semantic matching on learned discriminative features. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, \etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to predict query categories more accurately under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small).
- Abstract(参考訳): 最近の数発アクション認識(FSAR)法は、学習した識別的特徴に対して意味マッチングを行うことにより、有望な性能を達成する。
しかしながら、ほとんどのFSARメソッドは単一スケール(例えば、フレームレベル、セグメントレベル、 \etc)の機能アライメントに焦点を当てており、同じ意味を持つ人間のアクションが異なる速度で現れる可能性があることを無視している。
この目的のために我々は,多速度レベルで意味関連行動特徴を段階的に学習・調整する,新しいMVP-Shotフレームワークを開発した。
具体的には、MVFA(Multi-Velocity Feature Alignment)モジュールは、サポートビデオとクエリビデオの類似度を異なる速度スケールで測定し、すべての類似度スコアを残高な方法でマージするように設計されている。
提案するプログレッシブ・セマンティック・タイラード・インタラクション(PSTI)モジュールは,動作意味から逸脱する複数の速度特性を避けるため,異なる速度でチャネルと時間領域の機能相互作用を通じて,速度調整されたテキスト情報をビデオ特徴に注入する。
上記の2つのモジュールは相互に補償し、数ショット設定でクエリカテゴリをより正確に予測する。
実験結果から,本手法は複数の標準ショットベンチマーク(HMDB51, UCF101, Kinetics, SSv2-small)において,最先端の手法よりも優れていた。
関連論文リスト
- Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition [11.700737340560796]
近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。
我々は、これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で解決する。
提案手法は,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果とを比較検討する。
論文 参考訳(メタデータ) (2023-07-05T02:13:25Z) - Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement [39.06589186472675]
マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-10T07:57:05Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。