論文の概要: Spatio-temporal Relation Modeling for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2112.05132v1
- Date: Thu, 9 Dec 2021 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:54:09.813317
- Title: Spatio-temporal Relation Modeling for Few-shot Action Recognition
- Title(参考訳): ファウショット行動認識のための時空間関係モデリング
- Authors: Anirudh Thatipelli, Sanath Narayan, Salman Khan, Rao Muhammad Anwer,
Fahad Shahbaz Khan, Bernard Ghanem
- Abstract要約: 本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
- 参考スコア(独自算出の注目度): 100.3999454780478
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel few-shot action recognition framework, STRM, which
enhances class-specific feature discriminability while simultaneously learning
higher-order temporal representations. The focus of our approach is a novel
spatio-temporal enrichment module that aggregates spatial and temporal contexts
with dedicated local patch-level and global frame-level feature enrichment
sub-modules. Local patch-level enrichment captures the appearance-based
characteristics of actions. On the other hand, global frame-level enrichment
explicitly encodes the broad temporal context, thereby capturing the relevant
object features over time. The resulting spatio-temporally enriched
representations are then utilized to learn the relational matching between
query and support action sub-sequences. We further introduce a query-class
similarity classifier on the patch-level enriched features to enhance
class-specific feature discriminability by reinforcing the feature learning at
different stages in the proposed framework. Experiments are performed on four
few-shot action recognition benchmarks: Kinetics, SSv2, HMDB51 and UCF101. Our
extensive ablation study reveals the benefits of the proposed contributions.
Furthermore, our approach sets a new state-of-the-art on all four benchmarks.
On the challenging SSv2 benchmark, our approach achieves an absolute gain of
3.5% in classification accuracy, as compared to the best existing method in the
literature. Our code and models will be publicly released.
- Abstract(参考訳): 本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴識別性を向上する,新しい数発アクション認識フレームワークSTRMを提案する。
このアプローチの焦点は、空間的および時間的コンテキストを専用のパッチレベルおよびグローバルフレームレベルの機能強化サブモジュールに集約する、新たな時空間強化モジュールである。
局所パッチレベルのエンリッチメントは、アクションの外観ベースの特性をキャプチャする。
一方,グローバルなフレームレベルエンリッチメントは時間的コンテキストを明示的にエンコードし,時間とともに関連するオブジェクトの特徴をキャプチャする。
結果として得られる時空間的な表現を利用して、クエリとサポートアクションサブシーケンス間の関係マッチングを学習する。
さらに,提案フレームワークの異なる段階における特徴学習を強化することで,クラス固有の特徴識別性を高めるために,パッチレベルのリッチ機能に対するクエリクラス類似度分類器を導入する。
Kinetics、SSv2、HMDB51、UCF101の4つの数発のアクション認識ベンチマークで実験が行われた。
広範なアブレーション研究により,提案する貢献の利点が明らかになった。
さらに,本手法は4つのベンチマークすべてに新たな最先端を設定する。
難解なssv2ベンチマークでは,本手法は文献上最良の手法と比較して,分類精度が3.5%と絶対的に向上した。
私たちのコードとモデルは公開されます。
関連論文リスト
- Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。