論文の概要: FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding
- arxiv url: http://arxiv.org/abs/2004.06704v1
- Date: Tue, 14 Apr 2020 17:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 10:00:34.551765
- Title: FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding
- Title(参考訳): FineGym: きめ細かいアクション理解のための階層的ビデオデータセット
- Authors: Dian Shao, Yue Zhao, Bo Dai and Dahua Lin
- Abstract要約: FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
- 参考スコア(独自算出の注目度): 118.32912239230272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On public benchmarks, current action recognition techniques have achieved
great success. However, when used in real-world applications, e.g. sport
analysis, which requires the capability of parsing an activity into phases and
differentiating between subtly different actions, their performances remain far
from being satisfactory. To take action recognition to a new level, we develop
FineGym, a new dataset built on top of gymnastic videos. Compared to existing
action recognition datasets, FineGym is distinguished in richness, quality, and
diversity. In particular, it provides temporal annotations at both action and
sub-action levels with a three-level semantic hierarchy. For example, a
"balance beam" event will be annotated as a sequence of elementary sub-actions
derived from five sets: "leap-jump-hop", "beam-turns", "flight-salto",
"flight-handspring", and "dismount", where the sub-action in each set will be
further annotated with finely defined class labels. This new level of
granularity presents significant challenges for action recognition, e.g. how to
parse the temporal structures from a coherent action, and how to distinguish
between subtly different action classes. We systematically investigate
representative methods on this dataset and obtain a number of interesting
findings. We hope this dataset could advance research towards action
understanding.
- Abstract(参考訳): 公開ベンチマークでは、現在のアクション認識技術は大きな成功を収めている。
しかし、例えば、アクティビティをフェーズにパースし、微妙に異なるアクションを区別する能力を必要とするスポーツ分析のような実世界のアプリケーションで使用される場合、そのパフォーマンスは満足できないままである。
アクション認識を新たなレベルに引き上げるために,体操ビデオ上に構築された新しいデータセットであるFineGymを開発した。
既存のアクション認識データセットと比較すると、ファインガイムは豊かさ、品質、多様性で区別される。
特に、アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つ時間アノテーションを提供する。
例えば、「バランスビーム」イベントは、"leap-jump-hop"、"beam-turns"、"flight-salto"、"flight-handspring"、"dismount"の5つのセットから派生した基本的なサブアクションのシーケンスとして注釈付けされる。
この新たな粒度は、コヒーレントなアクションから時間的構造を解析する方法や、微妙に異なるアクションクラスを区別する方法といった、アクション認識に重大な課題をもたらします。
本データセットの代表的な手法を体系的に検討し,多くの興味深い知見を得た。
このデータセットが、行動理解に向けた研究を進めることを願っている。
関連論文リスト
- Telling Stories for Common Sense Zero-Shot Action Recognition [11.166901260737786]
本稿では,WikiHowの記事から抽出した多様なアクションクラスに対するリッチなテキスト記述を含む,新しいデータセットであるStoriesを紹介する。
各クラスに対して、アクションを特徴付けるために必要なステップ、シーン、オブジェクト、動詞を詳述した多文の物語を抽出する。
このコンテキストデータは、アクション間のニュアンス付き関係のモデリングを可能にし、ゼロショット転送への道を開く。
論文 参考訳(メタデータ) (2023-09-29T15:34:39Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with
Hierarchical Atomic Actions [13.665489987620724]
ビデオにおける微粒な時間的行動検出の弱さに対処する。
本稿では、データから自動的に検出される再利用可能なアトミックアクションの組み合わせとしてアクションをモデル化する。
提案手法は,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。
論文 参考訳(メタデータ) (2022-07-24T20:32:24Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。