論文の概要: Video Pose Distillation for Few-Shot, Fine-Grained Sports Action
Recognition
- arxiv url: http://arxiv.org/abs/2109.01305v1
- Date: Fri, 3 Sep 2021 04:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:59:13.534480
- Title: Video Pose Distillation for Few-Shot, Fine-Grained Sports Action
Recognition
- Title(参考訳): Few-Shot, Fine-Grained Sports Action Recognitionのためのビデオポス蒸留
- Authors: James Hong, Matthew Fisher, Micha\"el Gharbi, Kayvon Fatahalian
- Abstract要約: Video Pose Distillation (VPD)は、新しいビデオドメインの機能を学ぶための弱い教師付きテクニックである。
VPDは、4つの実世界のスポーツビデオデータセットで、いくつかのショット、きめ細かなアクション認識、検索、検出タスクのパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 17.84533144792773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose is a useful feature for fine-grained sports action understanding.
However, pose estimators are often unreliable when run on sports video due to
domain shift and factors such as motion blur and occlusions. This leads to poor
accuracy when downstream tasks, such as action recognition, depend on pose.
End-to-end learning circumvents pose, but requires more labels to generalize.
We introduce Video Pose Distillation (VPD), a weakly-supervised technique to
learn features for new video domains, such as individual sports that challenge
pose estimation. Under VPD, a student network learns to extract robust pose
features from RGB frames in the sports video, such that, whenever pose is
considered reliable, the features match the output of a pretrained teacher pose
detector. Our strategy retains the best of both pose and end-to-end worlds,
exploiting the rich visual patterns in raw video frames, while learning
features that agree with the athletes' pose and motion in the target video
domain to avoid over-fitting to patterns unrelated to athletes' motion.
VPD features improve performance on few-shot, fine-grained action
recognition, retrieval, and detection tasks in four real-world sports video
datasets, without requiring additional ground-truth pose annotations.
- Abstract(参考訳): 人間のポーズは、きめ細かいスポーツ行動を理解するのに役立つ。
しかし、ポーズ推定器は、ドメインシフトや動きのぼやけやオクルージョンなどの要因により、スポーツビデオで走ると信頼できないことが多い。
これにより、アクション認識などの下流タスクがポーズに依存する場合、精度が低下する。
エンドツーエンドの学習はポーズを回避しますが、一般化するためにより多くのラベルが必要です。
本稿では、ポーズ推定に挑戦する個人スポーツなど、新しいビデオドメインの機能を学ぶための弱教師付きテクニックであるビデオポス蒸留(VPD)を紹介する。
VPDの下では、学生ネットワークがスポーツビデオのRGBフレームからロバストなポーズ特徴を抽出することを学び、ポーズが信頼できるとみなされるたびに、事前に訓練された教師のポーズ検出器の出力と一致する。
私たちの戦略は、ポーズとエンド・ツー・エンドの両方の世界のベストを保ち、生の動画フレームのリッチなビジュアルパターンを活用しつつ、ターゲットの動画領域におけるアスリートのポーズと動きに一致する特徴を学習し、アスリートの動作に無関係なパターンへの過剰フィットを避ける。
VPD機能は、4つの現実世界のスポーツビデオデータセットにおける、いくつかのショット、きめ細かいアクション認識、検索、検出タスクのパフォーマンスを改善する。
関連論文リスト
- Seeing the Pose in the Pixels: Learning Pose-Aware Representations in
Vision Transformers [1.8047694351309207]
視覚変換器(ViT)におけるポーズ認識表現学習のための2つの戦略を導入する。
Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。
第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。
論文 参考訳(メタデータ) (2023-06-15T17:58:39Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - IntegralAction: Pose-driven Feature Integration for Robust Human Action
Recognition in Videos [94.06960017351574]
ポーズ駆動機能統合を学習し、その場でポーズ機能を観察して、外観とポーズストリームを動的に組み合わせます。
提案したIntegralActionは,コンテクスト内およびアウト・オブ・コンテクストのアクションビデオデータセット間で高いロバストなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-13T11:24:48Z) - Decoupling Video and Human Motion: Towards Practical Event Detection in
Athlete Recordings [33.770877823910176]
本稿では,映像情報から人間の動きを分離する中間表現として2次元人間のポーズシーケンスを提案する。
本稿では,ポーズシーケンスにおける事象検出の2つのアプローチを解説し,それを補完領域である水泳と運動の2つで評価する。
提案手法はこれらの領域に限らず,ポーズに基づく動作イベント検出の柔軟性を示す。
論文 参考訳(メタデータ) (2020-04-21T07:06:12Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。