論文の概要: Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning
- arxiv url: http://arxiv.org/abs/2108.06647v1
- Date: Sun, 15 Aug 2021 02:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:12:22.091905
- Title: Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning
- Title(参考訳): 双方向注意とコントラストメタラーニングによるFew-Shot Fine-Grained Action Recognition
- Authors: Jiahao Wang, Yunhong Wang, Sheng Liu, Annan Li
- Abstract要約: 現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
- 参考スコア(独自算出の注目度): 51.03781020616402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained action recognition is attracting increasing attention due to the
emerging demand of specific action understanding in real-world applications,
whereas the data of rare fine-grained categories is very limited. Therefore, we
propose the few-shot fine-grained action recognition problem, aiming to
recognize novel fine-grained actions with only few samples given for each
class. Although progress has been made in coarse-grained actions, existing
few-shot recognition methods encounter two issues handling fine-grained
actions: the inability to capture subtle action details and the inadequacy in
learning from data with low inter-class variance. To tackle the first issue, a
human vision inspired bidirectional attention module (BAM) is proposed.
Combining top-down task-driven signals with bottom-up salient stimuli, BAM
captures subtle action details by accurately highlighting informative
spatio-temporal regions. To address the second issue, we introduce contrastive
meta-learning (CML). Compared with the widely adopted ProtoNet-based method,
CML generates more discriminative video representations for low inter-class
variance data, since it makes full use of potential contrastive pairs in each
training episode. Furthermore, to fairly compare different models, we establish
specific benchmark protocols on two large-scale fine-grained action recognition
datasets. Extensive experiments show that our method consistently achieves
state-of-the-art performance across evaluated tasks.
- Abstract(参考訳): 実世界のアプリケーションにおける特定の行動理解の需要が高まり、微粒な行動認識が注目を集めている一方、希少な微粒なカテゴリーのデータは非常に限られている。
そこで本研究では,各クラスに付与されるサンプル数が少ない新規なきめ細かい動作を認識することを目的とした,数発のきめ細かい動作認識問題を提案する。
粒度の粗いアクションでは進歩が見られたが、既存の極小ショット認識手法では、微妙なアクションの詳細をキャプチャできないことと、クラス間分散の少ないデータから学ぶことの不十分さという2つの問題に遭遇している。
まず,人間の視覚に触発された双方向注意モジュール(bam)を提案する。
BAMは、トップダウンタスク駆動信号とボトムアップ唾液刺激を組み合わせることで、情報的時空間を正確に強調することにより微妙なアクションの詳細を捉える。
第2の課題に対処するために、コントラストメタラーニング(CML)を導入する。
広く採用されているProtoNetベースの手法と比較して、CMLはトレーニングエピソード毎に潜在的なコントラッシブペアをフル活用するため、低クラス間分散データに対してより差別的なビデオ表現を生成する。
さらに、異なるモデルを比較するために、2つの大規模細粒度アクション認識データセットに特定のベンチマークプロトコルを確立する。
実験結果から,提案手法は評価課題間の最先端性能を常に達成していることがわかった。
関連論文リスト
- FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。