論文の概要: SkateboardAI: The Coolest Video Action Recognition for Skateboarding
- arxiv url: http://arxiv.org/abs/2311.11467v2
- Date: Wed, 3 Jan 2024 12:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:37:00.391029
- Title: SkateboardAI: The Coolest Video Action Recognition for Skateboarding
- Title(参考訳): SkateboardAI:スケーティングのためのクールなビデオアクション認識
- Authors: Hanxiao Chen
- Abstract要約: 原文(投稿日:2019/05/19)へのリンク 私たちは、原生のビデオデータセット“SkateboardAI”を野生で最初にキュレートしました。
我々は、異なるトリックを正確に認識するために、多様なユニモーダルおよびマルチモーダルなビデオアクション認識アプローチを実装した。
我々の目標は、最もクールなスケートボード競技のための優れたAIスポーツレフェリーを作ることです。
- 参考スコア(独自算出の注目度): 11.893324664457548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Impressed by the coolest skateboarding sports program from 2021 Tokyo Olympic
Games, we are the first to curate the original real-world video datasets
"SkateboardAI" in the wild, even self-design and implement diverse uni-modal
and multi-modal video action recognition approaches to recognize different
tricks accurately. For uni-modal methods, we separately apply (1) CNN and LSTM;
(2) CNN and BiLSTM; (3) CNN and BiLSTM with effective attention mechanisms; (4)
Transformer-based action recognition pipeline. Transferred to the multi-modal
conditions, we investigated the two-stream Inflated-3D architecture on
"SkateboardAI" datasets to compare its performance with uni-modal cases. In
sum, our objective is developing an excellent AI sport referee for the coolest
skateboarding competitions.
- Abstract(参考訳): 2021年東京五輪の最もクールなスケートボードスポーツプログラムに感銘を受け、実世界のオリジナルビデオデータセット「skateboardai」を野生でキュレートし、自己設計し、さまざまなトリックを正確に認識するための多様なユニモーダルおよびマルチモーダルビデオアクション認識アプローチを実装した。
一様法では,(1)CNNとLSTM,(2)CNNとBiLSTM,(3)効果的な注意機構を有するCNNとBiLSTM,(4)トランスフォーマーに基づく行動認識パイプラインを別々に適用する。
マルチモーダル条件に移行し,SkateboardAIデータセット上の2ストリームのInflated-3Dアーキテクチャを用いて,その性能をユニモーダルケースと比較した。
私たちの目標は、最もクールなスケートボード競技会のための優れたAIスポーツレフェリーを開発することです。
関連論文リスト
- SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - MuLMINet: Multi-Layer Multi-Input Transformer Network with Weighted Loss [6.854732863866882]
本稿では,プロのバドミントンプレーヤーのマッチングデータを利用して,将来的なショットタイプやエリア座標を正確に予測するマルチ層マルチ入力トランスフォーマネットワーク(MuLMINet)を提案する。
IJCAI CoachAI Badminton Challenge 2023, Track 2で優勝(2位)を果たした。
論文 参考訳(メタデータ) (2023-07-17T06:10:03Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z) - Skating-Mixer: Multimodal MLP for Scoring Figure Skating [31.346611498891964]
我々はSkating-Mixerというマルチモーダルアーキテクチャを導入する。
設計したメモリリカレントユニット(MRU)を用いて,長期的表現を効果的に学習する。
実験により、提案手法は、公開Fis-VおよびFS1000データセット上のすべての主要な指標に対してSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-08T10:36:55Z) - Feature Combination Meets Attention: Baidu Soccer Embeddings and
Transformer based Temporal Detection [3.7709686875144337]
本稿では,サッカー中継ビデオにおけるイベントの発生状況と発生状況を検出するための2段階のパラダイムを提案する。
具体的には,サッカーデータ上に複数のアクション認識モデルを微調整し,ハイレベルなセマンティックな特徴を抽出する。
このアプローチは、サッカーネットv2チャレンジにおける2つのタスク、すなわちアクションスポッティングとリプレイグラウンドにおいて、最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-06-28T08:00:21Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos [24.4517195084202]
トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。
提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。
本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T02:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。