論文の概要: 3D Convolutional Networks for Action Recognition: Application to Sport
Gesture Recognition
- arxiv url: http://arxiv.org/abs/2204.08460v1
- Date: Wed, 13 Apr 2022 13:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 15:47:07.480486
- Title: 3D Convolutional Networks for Action Recognition: Application to Sport
Gesture Recognition
- Title(参考訳): 動作認識のための3次元畳み込みネットワーク:スポーツジェスチャ認識への応用
- Authors: Pierre-Etienne Martin (LaBRI, MPI-EVA, UB), J Benois-Pineau, R
P\'eteri, A Zemmari, J Morlier
- Abstract要約: 我々は、卓球のストロークのような反復的なアクションを伴う連続的なビデオの分類に興味を持っている。
3Dコンブネットは、これらの問題をウィンドウベースのアプローチで解決するための効率的なツールである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D convolutional networks is a good means to perform tasks such as video
segmentation into coherent spatio-temporal chunks and classification of them
with regard to a target taxonomy. In the chapter we are interested in the
classification of continuous video takes with repeatable actions, such as
strokes of table tennis. Filmed in a free marker less ecological environment,
these videos represent a challenge from both segmentation and classification
point of view. The 3D convnets are an efficient tool for solving these problems
with window-based approaches.
- Abstract(参考訳): 3d畳み込みネットワークは、コヒーレントな時空間的チャンクへのビデオセグメンテーションや、ターゲット分類に関する分類といったタスクを実行するための良い方法である。
この章では、卓球のストロークのような反復的なアクションを伴う連続的なビデオの分類に興味がある。
無料マーカーの少ない環境下で撮影されたこれらのビデオは、セグメンテーションと分類の両方の観点からの挑戦を表している。
3d convnetsは、ウィンドウベースのアプローチでこれらの問題を解決するための効率的なツールである。
関連論文リスト
- PointResNet: Residual Network for 3D Point Cloud Segmentation and
Classification [18.466814193413487]
ポイントクラウドのセグメンテーションと分類は、3Dコンピュータビジョンの主要なタスクである。
本稿では,残差ブロックベースアプローチであるPointResNetを提案する。
我々のモデルは、セグメント化と分類タスクのためのディープニューラルネットワークを用いて、3Dポイントを直接処理する。
論文 参考訳(メタデータ) (2022-11-20T17:39:48Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Three-Stream 3D/1D CNN for Fine-Grained Action Classification and
Segmentation in Table Tennis [0.0]
TT-21データセットに適用され、テーブルテニスゲームの未トリミングビデオで構成されている。
目標は、より大きなスキームの最初のステップである、ビデオ中のテーブルテニスストロークを検出して分類することだ。
また、選手により豊かなフィードバックを与えるために、ポーズも検討されている。
論文 参考訳(メタデータ) (2021-09-29T09:43:21Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Weakly-Supervised Action Localization and Action Recognition using
Global-Local Attention of 3D CNN [4.924442315857227]
3D Convolutional Neural Network (3D CNN)は、ビデオシーケンスなどの3Dデータの空間的および時間的情報をキャプチャします。
3D CNNの視覚的説明と分類を改善するための2つのアプローチを提案します。
論文 参考訳(メタデータ) (2020-12-17T12:29:16Z) - 3D attention mechanism for fine-grained classification of table tennis
strokes using a Twin Spatio-Temporal Convolutional Neural Networks [1.181206257787103]
本稿では,テーブルテニスストロークのようなクラス間変動の少ないビデオにおける行動認識の問題に対処する。
2つのストリーム「ツイン」畳み込みニューラルネットワークは、RGBデータと光フローの両方で3D畳み込みで使用される。
3Dアテンションモジュールを導入し、それらの分類効率への影響について検討する。
論文 参考訳(メタデータ) (2020-11-20T09:55:12Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。