論文の概要: 3D attention mechanism for fine-grained classification of table tennis
strokes using a Twin Spatio-Temporal Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2012.05342v1
- Date: Fri, 20 Nov 2020 09:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:49:21.328764
- Title: 3D attention mechanism for fine-grained classification of table tennis
strokes using a Twin Spatio-Temporal Convolutional Neural Networks
- Title(参考訳): 2つの時空間畳み込みニューラルネットワークを用いた卓球ストロークのきめ細かい分類のための3次元注意機構
- Authors: Pierre-Etienne Martin (LaBRI, UB), Jenny Benois-Pineau (LaBRI), Renaud
P\'eteri, Julien Morlier
- Abstract要約: 本稿では,テーブルテニスストロークのようなクラス間変動の少ないビデオにおける行動認識の問題に対処する。
2つのストリーム「ツイン」畳み込みニューラルネットワークは、RGBデータと光フローの両方で3D畳み込みで使用される。
3Dアテンションモジュールを導入し、それらの分類効率への影響について検討する。
- 参考スコア(独自算出の注目度): 1.181206257787103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper addresses the problem of recognition of actions in video with low
inter-class variability such as Table Tennis strokes. Two stream, "twin"
convolutional neural networks are used with 3D convolutions both on RGB data
and optical flow. Actions are recognized by classification of temporal windows.
We introduce 3D attention modules and examine their impact on classification
efficiency. In the context of the study of sportsmen performances, a corpus of
the particular actions of table tennis strokes is considered. The use of
attention blocks in the network speeds up the training step and improves the
classification scores up to 5% with our twin model. We visualize the impact on
the obtained features and notice correlation between attention and player
movements and position. Score comparison of state-of-the-art action
classification method and proposed approach with attentional blocks is
performed on the corpus. Proposed model with attention blocks outperforms
previous model without them and our baseline.
- Abstract(参考訳): 本稿では,テーブルテニスストロークのようなクラス間変動の少ないビデオにおける行動認識の問題に対処する。
2つのストリーム「ツイン」畳み込みニューラルネットワークは、RGBデータと光フローの両方で3D畳み込みで使用される。
アクションは時間窓の分類によって認識される。
3Dアテンションモジュールを導入し、分類効率への影響を検討する。
スポーツマンのパフォーマンスに関する研究の文脈では、卓球ストロークの特定の動作のコーパスが考慮されている。
ネットワークにおける注意ブロックの使用は、トレーニングステップを高速化し、我々の双子モデルで最大5%の分類スコアを改善する。
得られた特徴に対する影響を可視化し、注目とプレイヤーの動きと位置の相関を指摘する。
コーパス上で,最先端動作分類法と注意ブロックを用いた提案手法のスコア比較を行った。
注意ブロックを持つ提案モデルは、それとベースラインなしで過去のモデルより優れている。
関連論文リスト
- DCNN: Dual Cross-current Neural Networks Realized Using An Interactive Deep Learning Discriminator for Fine-grained Objects [48.65846477275723]
本研究では、微細な画像分類の精度を向上させるために、新しい二重電流ニューラルネットワーク(DCNN)を提案する。
弱い教師付き学習バックボーンモデルを構築するための新しい特徴として、(a)異種データの抽出、(b)特徴マップの解像度の維持、(c)受容領域の拡大、(d)グローバル表現と局所特徴の融合などがある。
論文 参考訳(メタデータ) (2024-05-07T07:51:28Z) - 3D Convolutional Networks for Action Recognition: Application to Sport
Gesture Recognition [0.0]
我々は、卓球のストロークのような反復的なアクションを伴う連続的なビデオの分類に興味を持っている。
3Dコンブネットは、これらの問題をウィンドウベースのアプローチで解決するための効率的なツールである。
論文 参考訳(メタデータ) (2022-04-13T13:21:07Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Three-Stream 3D/1D CNN for Fine-Grained Action Classification and
Segmentation in Table Tennis [0.0]
TT-21データセットに適用され、テーブルテニスゲームの未トリミングビデオで構成されている。
目標は、より大きなスキームの最初のステップである、ビデオ中のテーブルテニスストロークを検出して分類することだ。
また、選手により豊かなフィードバックを与えるために、ポーズも検討されている。
論文 参考訳(メタデータ) (2021-09-29T09:43:21Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。