論文の概要: VIFSS: View-Invariant and Figure Skating-Specific Pose Representation Learning for Temporal Action Segmentation
- arxiv url: http://arxiv.org/abs/2508.10281v1
- Date: Thu, 14 Aug 2025 02:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.155193
- Title: VIFSS: View-Invariant and Figure Skating-Specific Pose Representation Learning for Temporal Action Segmentation
- Title(参考訳): VIFSS: 時間的行動セグメンテーションのためのビュー不変性とフィギュアスケート-特殊詩表現学習
- Authors: Ryota Tanaka, Tomohiro Suzuki, Keisuke Fujii,
- Abstract要約: 本研究では,ジャンプ運動の3次元的性質と意味的手順の両方を明示的に組み込んだフィギュアスケートジャンプのための新しいTASフレームワークを提案する。
本手法は, 92%以上のF1@50を要素レベルTAS上で達成し, ジャンプタイプと回転レベルの両方を認識する必要がある。
- 参考スコア(独自算出の注目度): 5.453385501324681
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding human actions from videos plays a critical role across various domains, including sports analytics. In figure skating, accurately recognizing the type and timing of jumps a skater performs is essential for objective performance evaluation. However, this task typically requires expert-level knowledge due to the fine-grained and complex nature of jump procedures. While recent approaches have attempted to automate this task using Temporal Action Segmentation (TAS), there are two major limitations to TAS for figure skating: the annotated data is insufficient, and existing methods do not account for the inherent three-dimensional aspects and procedural structure of jump actions. In this work, we propose a new TAS framework for figure skating jumps that explicitly incorporates both the three-dimensional nature and the semantic procedure of jump movements. First, we propose a novel View-Invariant, Figure Skating-Specific pose representation learning approach (VIFSS) that combines contrastive learning as pre-training and action classification as fine-tuning. For view-invariant contrastive pre-training, we construct FS-Jump3D, the first publicly available 3D pose dataset specialized for figure skating jumps. Second, we introduce a fine-grained annotation scheme that marks the ``entry (preparation)'' and ``landing'' phases, enabling TAS models to learn the procedural structure of jumps. Extensive experiments demonstrate the effectiveness of our framework. Our method achieves over 92% F1@50 on element-level TAS, which requires recognizing both jump types and rotation levels. Furthermore, we show that view-invariant contrastive pre-training is particularly effective when fine-tuning data is limited, highlighting the practicality of our approach in real-world scenarios.
- Abstract(参考訳): ビデオから人間の行動を理解することは、スポーツ分析など、さまざまな領域で重要な役割を果たす。
フィギュアスケートでは、スケーターが行うジャンプのタイプとタイミングを正確に認識することが客観的なパフォーマンス評価に不可欠である。
しかし、このタスクは通常、ジャンプ手順のきめ細かい複雑な性質のため、専門家レベルの知識を必要とする。
近年、TAS(Temporal Action Segmentation)を用いてこのタスクを自動化しようとしているが、フィギュアスケートには2つの大きな制限がある。
本研究では,フィギュアスケートジャンプのための新しいTASフレームワークを提案する。
まず、コントラスト学習を事前学習として、アクション分類を微調整として組み合わせた、ビュー不変、フィギュアスケート特化ポーズ表現学習手法(VIFSS)を提案する。
図形スケートジャンプに特化した3DポーズデータセットであるFS-Jump3Dを構築した。
次に,<entry(preparation)' と `landing'' のフェーズを示す詳細なアノテーションスキームを導入し,TAS モデルがジャンプの手続き的構造を学習できるようにする。
大規模な実験により、我々のフレームワークの有効性が実証された。
本手法は, 92%以上のF1@50を要素レベルTAS上で達成し, ジャンプタイプと回転レベルの両方を認識する必要がある。
さらに、ビュー不変のコントラスト事前学習は、微調整データに制限がある場合に特に有効であることを示し、実世界のシナリオにおける我々のアプローチの実践性を強調した。
関連論文リスト
- YourSkatingCoach: A Figure Skating Video Benchmark for Fine-Grained Element Analysis [10.444961818248624]
データセットには、ジャンプ要素の454のビデオ、検出された各ビデオ中のスケータースケルトン、ジャンプの開始フレームと終了フレームのゴールドラベル、フィギュアスケートの動画ベンチマークが含まれている。
そこで本研究では,ジャンプの時間長を正確に検出することを目的とした,新しい動作解析タスクである空気時間検出を提案する。
細粒度ラベルの一般化性を検証するため、粗粒度タスクアクション分類ではなく、クロススポーツタスクとして他のスポーツにも同様のプロセスを適用する。
論文 参考訳(メタデータ) (2024-10-27T12:52:28Z) - 3D Pose-Based Temporal Action Segmentation for Figure Skating: A Fine-Grained and Jump Procedure-Aware Annotation Approach [5.453385501324681]
フィギュアスケートでは、スケーターの3D動作を見て技術判断を行い、その判断手順の一部が時間行動(TAS)課題とみなすことができる。
3Dポーズデータを必要とするTASタスクには、データセットの欠如と効果的な方法がある。
本研究では,光学マーカーレスモーションキャプチャーを用いて,複雑なフィギュアスケートジャンプと動的フィギュアスケートジャンプのFS-Jump3Dデータセットを初めて作成した。
また,TASモデルでジャンプ手順を学習可能な,詳細なフィギュアスケートジャンプTASデータセットアノテーション手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T15:42:06Z) - Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。
トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。
時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T11:54:49Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [64.153799533257]
D$2$ST-Adapterは、空間的特徴と時間的特徴の非絡み合いの符号化を可能にする内部のデュアルパスアーキテクチャで構成されている。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Few-Shot Classification with Contrastive Learning [10.236150550121163]
両段階に比較学習をシームレスに統合する,新しいコントラスト学習ベースのフレームワークを提案する。
メタトレーニングの段階において,同エピソードの2つの異なる視点から最寄りのセントロイド分類を行うための,クロスビュー・エピソード・トレーニング機構を提案する。
これらの2つの戦略は、ビュー間のバイアスを克服し、表現の転送可能性を促進するようモデルに強制する。
論文 参考訳(メタデータ) (2022-09-17T02:39:09Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。