論文の概要: ConvGRU in Fine-grained Pitching Action Recognition for Action Outcome
Prediction
- arxiv url: http://arxiv.org/abs/2008.07819v1
- Date: Tue, 18 Aug 2020 09:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:07:29.268451
- Title: ConvGRU in Fine-grained Pitching Action Recognition for Action Outcome
Prediction
- Title(参考訳): アクションアウトカム予測のための微細ピッチング動作認識におけるConvGRU
- Authors: Tianqi Ma, Lin Zhang, Xiumin Diao, Ou Ma
- Abstract要約: きめ細かい行動認識は、人間とロボットの相互作用、インテリジェントな交通管理、スポーツトレーニング、ヘルスケアなど、多くの分野において重要である。
本稿では,畳み込みゲートリカレントユニット(ConvGRU)法の性能について検討する。
人間の行動のRGB画像のシーケンスに基づいて、提案手法は79.17%の性能を達成した。
- 参考スコア(独自算出の注目度): 4.073910992747716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prediction of the action outcome is a new challenge for a robot
collaboratively working with humans. With the impressive progress in video
action recognition in recent years, fine-grained action recognition from video
data turns into a new concern. Fine-grained action recognition detects subtle
differences of actions in more specific granularity and is significant in many
fields such as human-robot interaction, intelligent traffic management, sports
training, health caring. Considering that the different outcomes are closely
connected to the subtle differences in actions, fine-grained action recognition
is a practical method for action outcome prediction. In this paper, we explore
the performance of convolutional gate recurrent unit (ConvGRU) method on a
fine-grained action recognition tasks: predicting outcomes of ball-pitching.
Based on sequences of RGB images of human actions, the proposed approach
achieved the performance of 79.17% accuracy, which exceeds the current
state-of-the-art result. We also compared different network implementations and
showed the influence of different image sampling methods, different fusion
methods and pre-training, etc. Finally, we discussed the advantages and
limitations of ConvGRU in such action outcome prediction and fine-grained
action recognition tasks.
- Abstract(参考訳): 行動結果の予測は、人間との共同作業を行うロボットにとって新たな課題である。
近年、ビデオのアクション認識が著しく進歩し、ビデオデータからのきめ細かいアクション認識が新たな関心事となる。
きめ細かい行動認識は、より特定の粒度のアクションの微妙な違いを検知し、人間とロボットの相互作用、インテリジェントな交通管理、スポーツトレーニング、ヘルスケアなど多くの分野において重要である。
アクションの微妙な違いに異なる結果が密接に関連していることを考えると、きめ細かいアクション認識はアクション結果予測の実用的な方法である。
本稿では,細粒度動作認識タスクにおけるconvolutional gate recurrent unit (convgru) 法の性能について検討する。
人間の行動のRGB画像のシーケンスに基づいて、提案手法は79.17%の精度を実現した。
また、異なるネットワーク実装を比較し、異なる画像サンプリング方法、異なる融合方法、事前学習などの影響を示した。
最後に,行動結果予測や細粒度行動認識タスクにおけるconvgruの利点と限界について考察した。
関連論文リスト
- Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - DirecFormer: A Directed Attention in Transformer Approach to Robust
Action Recognition [22.649489578944838]
この研究は、堅牢なアクション認識のための、エンドツーエンドのトランスフォーマーベースのDirected Attentionフレームワークを提案する。
本研究の貢献は3倍であり、まず、順序付けられた時間的学習問題の問題を行動認識問題に導入する。
第二に、人間の行動を正しい順番で理解し、注意を向けるために、新しい方向性注意機構が導入された。
論文 参考訳(メタデータ) (2022-03-19T03:41:48Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Object and Relation Centric Representations for Push Effect Prediction [18.990827725752496]
プッシュは、プレグレープ操作からシーンアレンジメントまでのタスクに使用される、非包括的操作スキルである。
本稿では,プッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。
本フレームワークは,異なる種類の接合体と異なる質量を有する物体を介して接続された異なる形状の多部オブジェクトを含む実環境と模擬環境の両方で検証される。
論文 参考訳(メタデータ) (2021-02-03T15:09:12Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - Learning End-to-End Action Interaction by Paired-Embedding Data
Augmentation [10.857323240766428]
新しいInteractive Action Translation (IAT)タスクは、ラベルなしのインタラクティブなペアからエンドツーエンドのアクションインタラクションを学ぶことを目的としている。
Paired-Embedding (PE) 法を提案する。
2つのデータセットの実験結果から,本手法の優れた効果と幅広い応用可能性が確認された。
論文 参考訳(メタデータ) (2020-07-16T01:54:16Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。