論文の概要: Intra- and Inter-Action Understanding via Temporal Action Parsing
- arxiv url: http://arxiv.org/abs/2005.10229v1
- Date: Wed, 20 May 2020 17:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:50:45.954689
- Title: Intra- and Inter-Action Understanding via Temporal Action Parsing
- Title(参考訳): 時間的行動解析による行動内・間理解
- Authors: Dian Shao, Yue Zhao, Bo Dai and Dahua Lin
- Abstract要約: 本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
- 参考スコア(独自算出の注目度): 118.32912239230272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for action recognition primarily rely on deep convolutional
networks to derive feature embeddings of visual and motion features. While
these methods have demonstrated remarkable performance on standard benchmarks,
we are still in need of a better understanding as to how the videos, in
particular their internal structures, relate to high-level semantics, which may
lead to benefits in multiple aspects, e.g. interpretable predictions and even
new methods that can take the recognition performances to a next level. Towards
this goal, we construct TAPOS, a new dataset developed on sport videos with
manual annotations of sub-actions, and conduct a study on temporal action
parsing on top. Our study shows that a sport activity usually consists of
multiple sub-actions and that the awareness of such temporal structures is
beneficial to action recognition. We also investigate a number of temporal
parsing methods, and thereon devise an improved method that is capable of
mining sub-actions from training data without knowing the labels of them. On
the constructed TAPOS, the proposed method is shown to reveal intra-action
information, i.e. how action instances are made of sub-actions, and
inter-action information, i.e. one specific sub-action may commonly appear in
various actions.
- Abstract(参考訳): 現在の行動認識の方法は、視覚特徴と運動特徴の特徴埋め込みを導出するために、主に深い畳み込みネットワークに依存している。
これらの手法は標準的なベンチマークで顕著な性能を示してきたが、ビデオ、特に内部構造がハイレベルなセマンティクスにどのように関係しているかをよりよく理解する必要がある。
この目的に向けて,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットTAPOSを構築し,その上で時間的行動解析の研究を行う。
本研究は,スポーツ活動が複数のサブアクションから成り,そのような時間的構造に対する認識が行動認識に有用であることを示す。
また,複数の時間的解析手法についても検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を提案する。
構築したtaposにおいて,提案手法は動作内情報,すなわち,動作インスタンスがどのようにサブアクションから作られるか,動作間情報,すなわち1つの特定のサブアクションが様々なアクションに現れるかを明らかにする。
関連論文リスト
- Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。