論文の概要: Three-Stream 3D/1D CNN for Fine-Grained Action Classification and
Segmentation in Table Tennis
- arxiv url: http://arxiv.org/abs/2109.14306v1
- Date: Wed, 29 Sep 2021 09:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 15:03:15.223224
- Title: Three-Stream 3D/1D CNN for Fine-Grained Action Classification and
Segmentation in Table Tennis
- Title(参考訳): テーブルテニスにおける細粒度動作分類とセグメンテーションのための3ストリーム3D/1DCNN
- Authors: Pierre-Etienne Martin (MPI-EVA), Jenny Benois-Pineau (UB), Renaud
P\'eteri (MIA), Julien Morlier (UB)
- Abstract要約: TT-21データセットに適用され、テーブルテニスゲームの未トリミングビデオで構成されている。
目標は、より大きなスキームの最初のステップである、ビデオ中のテーブルテニスストロークを検出して分類することだ。
また、選手により豊かなフィードバックを与えるために、ポーズも検討されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a fusion method of modalities extracted from video
through a three-stream network with spatio-temporal and temporal convolutions
for fine-grained action classification in sport. It is applied to TTStroke-21
dataset which consists of untrimmed videos of table tennis games. The goal is
to detect and classify table tennis strokes in the videos, the first step of a
bigger scheme aiming at giving feedback to the players for improving their
performance. The three modalities are raw RGB data, the computed optical flow
and the estimated pose of the player. The network consists of three branches
with attention blocks. Features are fused at the latest stage of the network
using bilinear layers. Compared to previous approaches, the use of three
modalities allows faster convergence and better performances on both tasks:
classification of strokes with known temporal boundaries and joint segmentation
and classification. The pose is also further investigated in order to offer
richer feedback to the athletes.
- Abstract(参考訳): 本稿では,スポーツにおける微粒なアクション分類のための時空間的・時間的畳み込みを伴う3ストリームネットワークを通じてビデオから抽出したモダリティの融合手法を提案する。
TTStroke-21データセットに適用され、テーブルテニスゲームの未トリミングビデオで構成されている。
ゴールは、ビデオ中のテーブルテニスストロークを検出して分類することであり、プレイヤーにパフォーマンスを改善するためのフィードバックを提供することを目的とした、より大きなスキームの第一歩である。
3つのモードは生のRGBデータ、計算された光学フロー、プレイヤーの推定ポーズである。
ネットワークは、注意ブロックを持つ3つのブランチで構成される。
機能は、双線形層を使用してネットワークの最新バージョンで融合される。
従来のアプローチと比較すると、3つのモダリティを用いることで、時間境界が既知のストロークの分類と関節分割と分類という、両方のタスクにおけるより高速な収束とより良いパフォーマンスが可能になる。
また、選手に対してよりリッチなフィードバックを提供するため、姿勢をさらに調査する。
関連論文リスト
- Semi-supervised 3D Video Information Retrieval with Deep Neural Network
and Bi-directional Dynamic-time Warping Algorithm [14.39527406033429]
提案アルゴリズムは,大規模なビデオデータセットを処理し,最も関連性の高い映像を検索ビデオクリップに検索するように設計されている。
候補と調査ビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダ支援のディープニューラルネットワークを用いて表現ベクトルに変換する。
次に, 双方向動的時間ワープ法を用いて, 埋め込みベクトル列間の類似度を計算した。
論文 参考訳(メタデータ) (2023-09-03T03:10:18Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - 3D Convolutional Networks for Action Recognition: Application to Sport
Gesture Recognition [0.0]
我々は、卓球のストロークのような反復的なアクションを伴う連続的なビデオの分類に興味を持っている。
3Dコンブネットは、これらの問題をウィンドウベースのアプローチで解決するための効率的なツールである。
論文 参考訳(メタデータ) (2022-04-13T13:21:07Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Weakly-Supervised Action Localization and Action Recognition using
Global-Local Attention of 3D CNN [4.924442315857227]
3D Convolutional Neural Network (3D CNN)は、ビデオシーケンスなどの3Dデータの空間的および時間的情報をキャプチャします。
3D CNNの視覚的説明と分類を改善するための2つのアプローチを提案します。
論文 参考訳(メタデータ) (2020-12-17T12:29:16Z) - 3D attention mechanism for fine-grained classification of table tennis
strokes using a Twin Spatio-Temporal Convolutional Neural Networks [1.181206257787103]
本稿では,テーブルテニスストロークのようなクラス間変動の少ないビデオにおける行動認識の問題に対処する。
2つのストリーム「ツイン」畳み込みニューラルネットワークは、RGBデータと光フローの両方で3D畳み込みで使用される。
3Dアテンションモジュールを導入し、それらの分類効率への影響について検討する。
論文 参考訳(メタデータ) (2020-11-20T09:55:12Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。