論文の概要: Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression
- arxiv url: http://arxiv.org/abs/2501.03674v1
- Date: Tue, 07 Jan 2025 10:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:35.105713
- Title: Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression
- Title(参考訳): 階層型Pose誘導多段階コントラスト回帰による行動品質評価
- Authors: Mengshi Qi, Hao Ye, Jiaxuan Peng, Huadong Ma,
- Abstract要約: アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
- 参考スコア(独自算出の注目度): 25.657978409890973
- License:
- Abstract: Action Quality Assessment (AQA), which aims at automatic and fair evaluation of athletic performance, has gained increasing attention in recent years. However, athletes are often in rapid movement and the corresponding visual appearance variances are subtle, making it challenging to capture fine-grained pose differences and leading to poor estimation performance. Furthermore, most common AQA tasks, such as diving in sports, are usually divided into multiple sub-actions, each of which contains different durations. However, existing methods focus on segmenting the video into fixed frames, which disrupts the temporal continuity of sub-actions resulting in unavoidable prediction errors. To address these challenges, we propose a novel action quality assessment method through hierarchically pose-guided multi-stage contrastive regression. Firstly, we introduce a multi-scale dynamic visual-skeleton encoder to capture fine-grained spatio-temporal visual and skeletal features. Then, a procedure segmentation network is introduced to separate different sub-actions and obtain segmented features. Afterwards, the segmented visual and skeletal features are both fed into a multi-modal fusion module as physics structural priors, to guide the model in learning refined activity similarities and variances. Finally, a multi-stage contrastive learning regression approach is employed to learn discriminative representations and output prediction results. In addition, we introduce a newly-annotated FineDiving-Pose Dataset to improve the current low-quality human pose labels. In experiments, the results on FineDiving and MTL-AQA datasets demonstrate the effectiveness and superiority of our proposed approach. Our source code and dataset are available at https://github.com/Lumos0507/HP-MCoRe.
- Abstract(参考訳): 近年,運動パフォーマンスの自動的公正評価を目的とした行動品質評価(AQA)が注目されている。
しかし、運動選手はしばしば急激な動きをしており、それに対応する視覚的外観の違いは微妙であり、きめ細かいポーズの違いを捉え、評価性能の低下につながる。
さらに、スポーツにおけるダイビングのような一般的なAQAタスクは、通常複数のサブアクションに分けられ、それぞれが異なる期間を含む。
しかし、既存の手法では、動画を固定フレームに分割することに重点を置いており、これはサブアクションの時間的連続性を乱し、避けられない予測エラーを引き起こす。
これらの課題に対処するために,階層的なポーズ誘導型マルチステージコントラスト回帰による行動品質評価手法を提案する。
まず,マルチスケールな動的視覚骨格エンコーダを導入し,微細な時空間的特徴と骨格的特徴を捉える。
そして、プロシージャセグメンテーションネットワークを導入して、異なるサブアクションを分離し、セグメンテーション特徴を得る。
その後、セグメント化された視覚的特徴と骨格的特徴の両方を物理構造的先行としてマルチモーダル融合モジュールに供給し、洗練された活動類似性と分散を学習するモデルを導出する。
最後に、識別表現と出力予測結果を学習するために、多段階のコントラスト学習回帰手法を用いる。
さらに,従来の低品質なポーズラベルを改善するために,新たに注釈付きファインディビング・ポーズデータセットを導入する。
The results on FineDiving and MTL-AQA datasets showed the effectiveness and superiority of our proposed approach。
ソースコードとデータセットはhttps://github.com/Lumos0507/HP-MCoReで公開されています。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Multi-Stage Contrastive Regression for Action Quality Assessment [31.763380011104015]
本稿では,アクション品質評価(AQA)タスクのためのMCoRe(Multi-stage Contrastive Regression)フレームワークを提案する。
グラフのコントラスト学習にヒントを得て,新たな段階的コントラスト学習損失関数を提案する。
MCoReは、広く採用されている詳細なAQAデータセット上で、最先端の結果を実証している。
論文 参考訳(メタデータ) (2024-01-05T14:48:19Z) - Locality-aware Attention Network with Discriminative Dynamics Learning
for Weakly Supervised Anomaly Detection [0.8883733362171035]
本稿では,2つの目的関数,すなわち動的ランク付け損失と動的アライメント損失の識別的ダイナミクス学習(DDL)手法を提案する。
局所性認識型注意ネットワーク(LA-Net)は,大域的相関を捉え,スニペット間の位置選好を補正するために構築され,その後,因果畳み込みを伴う多層パーセプトロンにより異常スコアを得る。
論文 参考訳(メタデータ) (2022-08-11T04:27:33Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。