論文の概要: Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning
- arxiv url: http://arxiv.org/abs/2108.06647v1
- Date: Sun, 15 Aug 2021 02:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:12:22.091905
- Title: Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning
- Title(参考訳): 双方向注意とコントラストメタラーニングによるFew-Shot Fine-Grained Action Recognition
- Authors: Jiahao Wang, Yunhong Wang, Sheng Liu, Annan Li
- Abstract要約: 現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
- 参考スコア(独自算出の注目度): 51.03781020616402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained action recognition is attracting increasing attention due to the
emerging demand of specific action understanding in real-world applications,
whereas the data of rare fine-grained categories is very limited. Therefore, we
propose the few-shot fine-grained action recognition problem, aiming to
recognize novel fine-grained actions with only few samples given for each
class. Although progress has been made in coarse-grained actions, existing
few-shot recognition methods encounter two issues handling fine-grained
actions: the inability to capture subtle action details and the inadequacy in
learning from data with low inter-class variance. To tackle the first issue, a
human vision inspired bidirectional attention module (BAM) is proposed.
Combining top-down task-driven signals with bottom-up salient stimuli, BAM
captures subtle action details by accurately highlighting informative
spatio-temporal regions. To address the second issue, we introduce contrastive
meta-learning (CML). Compared with the widely adopted ProtoNet-based method,
CML generates more discriminative video representations for low inter-class
variance data, since it makes full use of potential contrastive pairs in each
training episode. Furthermore, to fairly compare different models, we establish
specific benchmark protocols on two large-scale fine-grained action recognition
datasets. Extensive experiments show that our method consistently achieves
state-of-the-art performance across evaluated tasks.
- Abstract(参考訳): 実世界のアプリケーションにおける特定の行動理解の需要が高まり、微粒な行動認識が注目を集めている一方、希少な微粒なカテゴリーのデータは非常に限られている。
そこで本研究では,各クラスに付与されるサンプル数が少ない新規なきめ細かい動作を認識することを目的とした,数発のきめ細かい動作認識問題を提案する。
粒度の粗いアクションでは進歩が見られたが、既存の極小ショット認識手法では、微妙なアクションの詳細をキャプチャできないことと、クラス間分散の少ないデータから学ぶことの不十分さという2つの問題に遭遇している。
まず,人間の視覚に触発された双方向注意モジュール(bam)を提案する。
BAMは、トップダウンタスク駆動信号とボトムアップ唾液刺激を組み合わせることで、情報的時空間を正確に強調することにより微妙なアクションの詳細を捉える。
第2の課題に対処するために、コントラストメタラーニング(CML)を導入する。
広く採用されているProtoNetベースの手法と比較して、CMLはトレーニングエピソード毎に潜在的なコントラッシブペアをフル活用するため、低クラス間分散データに対してより差別的なビデオ表現を生成する。
さらに、異なるモデルを比較するために、2つの大規模細粒度アクション認識データセットに特定のベンチマークプロトコルを確立する。
実験結果から,提案手法は評価課題間の最先端性能を常に達成していることがわかった。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - HCL-TAT: A Hybrid Contrastive Learning Method for Few-shot Event
Detection with Task-Adaptive Threshold [18.165302114575212]
タスク適応型閾値(HCLTAT)を用いた新しいハイブリッドコントラスト学習法を提案する。
本稿では,タスク適応型閾値(HCLTAT)を用いたハイブリッドコントラスト学習手法を提案する。
ベンチマークデータセットFewEventの実験は、最先端技術と比較して、より良い結果を得るために、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-10-17T07:37:38Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。