論文の概要: Skating-Mixer: Multimodal MLP for Scoring Figure Skating
- arxiv url: http://arxiv.org/abs/2203.03990v1
- Date: Tue, 8 Mar 2022 10:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:53:53.976113
- Title: Skating-Mixer: Multimodal MLP for Scoring Figure Skating
- Title(参考訳): Skating-Mixer: フィギュアスケートのためのマルチモーダルMLP
- Authors: Jingfei Xia, Mingchen Zhuge, Tiantian Geng, Shun Fan, Yuantai Wei,
Zhenyu He and Feng Zheng
- Abstract要約: 我々はSkating-Mixerというマルチモーダルアーキテクチャを導入する。
設計したメモリリカレントユニット(MRU)を用いて,長期的表現を効果的に学習する。
実験により、提案手法は、公開Fis-VおよびFS1000データセット上のすべての主要な指標に対してSOTAよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 31.346611498891964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Figure skating scoring is a challenging task because it requires judging
players' technical moves as well as coordination with the background music.
Prior learning-based work cannot solve it well for two reasons: 1) each move in
figure skating changes quickly, hence simply applying traditional frame
sampling will lose a lot of valuable information, especially in a 3-5 minutes
lasting video, so an extremely long-range representation learning is necessary;
2) prior methods rarely considered the critical audio-visual relationship in
their models. Thus, we introduce a multimodal MLP architecture, named
Skating-Mixer. It extends the MLP-Mixer-based framework into a multimodal
fashion and effectively learns long-term representations through our designed
memory recurrent unit (MRU). Aside from the model, we also collected a
high-quality audio-visual FS1000 dataset, which contains over 1000 videos on 8
types of programs with 7 different rating metrics, overtaking other datasets in
both quantity and diversity. Experiments show the proposed method outperforms
SOTAs over all major metrics on the public Fis-V and our FS1000 dataset. In
addition, we include an analysis applying our method to recent competitions
that occurred in Beijing 2022 Winter Olympic Games, proving our method has
strong robustness.
- Abstract(参考訳): フィギュアスケートのスコアリングは、プレーヤーの技術的な動きを判断し、バックグラウンドミュージックとの調整を必要とするため、難しい作業である。
事前学習に基づく作業は2つの理由からうまく解決できない。
1) フィギュアスケートにおける各動きは急速に変化するため、従来のフレームサンプリングを単純に適用すれば、特に3~5分間の持続ビデオにおいて多くの貴重な情報を失うため、極端に長距離表現学習が必要である。
2) 先行手法では, モデルにおける音声と視覚の関係をほとんど考慮しない。
そこで我々はSkating-MixerというマルチモーダルMLPアーキテクチャを導入する。
MLP-Mixerベースのフレームワークをマルチモーダルなスタイルに拡張し,設計したメモリリカレントユニット(MRU)を通じて長期的表現を効果的に学習する。
このモデルとは別に、私たちは高品質なオーディオビジュアルfs1000データセットも収集しました。このデータセットには、8種類のプログラムで1000以上のビデオが7つの異なる評価指標で表示され、数量と多様性の両方で他のデータセットを上回っています。
実験により、提案手法は、公開Fis-VおよびFS1000データセット上のすべての主要な指標に対してSOTAよりも優れていることが示された。
また,本手法を北京オリンピックにおける最近の大会に適用する分析を行い,強固性があることを実証した。
関連論文リスト
- YourSkatingCoach: A Figure Skating Video Benchmark for Fine-Grained Element Analysis [10.444961818248624]
データセットには、ジャンプ要素の454のビデオ、検出された各ビデオ中のスケータースケルトン、ジャンプの開始フレームと終了フレームのゴールドラベル、フィギュアスケートの動画ベンチマークが含まれている。
そこで本研究では,ジャンプの時間長を正確に検出することを目的とした,新しい動作解析タスクである空気時間検出を提案する。
細粒度ラベルの一般化性を検証するため、粗粒度タスクアクション分類ではなく、クロススポーツタスクとして他のスポーツにも同様のプロセスを適用する。
論文 参考訳(メタデータ) (2024-10-27T12:52:28Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文 参考訳(メタデータ) (2020-02-19T10:24:22Z) - FSD-10: A Dataset for Competitive Sports Content Analysis [29.62110021022271]
フィギュアスケートデータセット(FSD-10)は、きめ細かいアクションのコレクションを持つように設計されている。
各クリップは毎秒30フレーム、解像度は1080ドルで720ドルだ。
FSD-10における動作認識手法の評価を行った。
論文 参考訳(メタデータ) (2020-02-09T08:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。