論文の概要: Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with
Hierarchical Atomic Actions
- arxiv url: http://arxiv.org/abs/2207.11805v1
- Date: Sun, 24 Jul 2022 20:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:32:04.149393
- Title: Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with
Hierarchical Atomic Actions
- Title(参考訳): 階層的アトミックアクションを用いた微粒化ビデオの弱教師付き時間行動検出
- Authors: Zhi Li, Lu He, Huijuan Xu
- Abstract要約: ビデオにおける微粒な時間的行動検出の弱さに対処する。
本稿では、データから自動的に検出される再利用可能なアトミックアクションの組み合わせとしてアクションをモデル化する。
提案手法は,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。
- 参考スコア(独自算出の注目度): 13.665489987620724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action understanding has evolved into the era of fine granularity, as most
human behaviors in real life have only minor differences. To detect these
fine-grained actions accurately in a label-efficient way, we tackle the problem
of weakly-supervised fine-grained temporal action detection in videos for the
first time. Without the careful design to capture subtle differences between
fine-grained actions, previous weakly-supervised models for general action
detection cannot perform well in the fine-grained setting. We propose to model
actions as the combinations of reusable atomic actions which are automatically
discovered from data through self-supervised clustering, in order to capture
the commonality and individuality of fine-grained actions. The learnt atomic
actions, represented by visual concepts, are further mapped to fine and coarse
action labels leveraging the semantic label hierarchy. Our approach constructs
a visual representation hierarchy of four levels: clip level, atomic action
level, fine action class level and coarse action class level, with supervision
at each level. Extensive experiments on two large-scale fine-grained video
datasets, FineAction and FineGym, show the benefit of our proposed
weakly-supervised model for fine-grained action detection, and it achieves
state-of-the-art results.
- Abstract(参考訳): 行動理解は細かな粒度の時代へと進化し、実生活における人間の行動のほとんどがわずかな違いしか持たない。
これらの細粒度動作をラベル効率良く正確に検出するため,ビデオにおける弱教師付き時間的動作検出の問題に初めて取り組む。
細粒度動作間の微妙な差異を捉えるための注意深い設計がなければ、従来の一般的なアクション検出のための弱教師付きモデルは細粒度設定ではうまく機能しない。
本稿では, 自己監視クラスタリングによるデータから自動的に検出される再利用可能なアトミックアクションの組み合わせとして, アクションをモデル化することを提案する。
学習されたアトミックアクションは、視覚的概念によって表現され、セマンティックなラベル階層を利用して、さらに微細で粗いアクションラベルにマッピングされる。
このアプローチでは,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。
2つの大規模細粒ビデオデータセット(ファインアクションとファインジャム)に関する広範囲な実験により,提案する微粒度動作検出のための弱教師付きモデルの利点を示し,最新結果を得た。
関連論文リスト
- FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Action Completeness from Points for Weakly-supervised Temporal
Action Localization [15.603643098270409]
本研究では,各アクションインスタンスに1フレームのラベルを付けるだけで,時間間隔の動作をローカライズする問題に対処する。
本稿では,モデルに対する完全性ガイダンスを提供するために,高密度な擬似ラベルを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T04:54:39Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。