論文の概要: CGAP2: Context and gap aware predictive pose framework for early
detection of gestures
- arxiv url: http://arxiv.org/abs/2011.09216v1
- Date: Wed, 18 Nov 2020 11:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:36:22.841189
- Title: CGAP2: Context and gap aware predictive pose framework for early
detection of gestures
- Title(参考訳): CGAP2:ジェスチャーの早期検出のためのコンテキストとギャップ認識型ポーズフレームワーク
- Authors: Nishant Bhattacharya and Suresh Sundaram
- Abstract要約: 我々は新しい文脈とギャップ認識型ポーズ予測フレームワーク(CGAP2)を提案する。
CGAP2は、オンライン形式でジェスチャーの予測認識のための将来のポーズデータを予測する。
CGAP2は他のジェスチャー認識システムに比べて1秒のアドバンテージがある。
- 参考スコア(独自算出の注目度): 5.497826928713538
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With a growing interest in autonomous vehicles' operation, there is an
equally increasing need for efficient anticipatory gesture recognition systems
for human-vehicle interaction. Existing gesture-recognition algorithms have
been primarily restricted to historical data. In this paper, we propose a novel
context and gap aware pose prediction framework(CGAP2), which predicts future
pose data for anticipatory recognition of gestures in an online fashion. CGAP2
implements an encoder-decoder architecture paired with a pose prediction module
to anticipate future frames followed by a shallow classifier. CGAP2 pose
prediction module uses 3D convolutional layers and depends on the number of
pose frames supplied, the time difference between each pose frame, and the
number of predicted pose frames. The performance of CGAP2 is evaluated on the
Human3.6M dataset with the MPJPE metric. For pose prediction of 15 frames in
advance, an error of 79.0mm is achieved. The pose prediction module consists of
only 26M parameters and can run at 50 FPS on the NVidia RTX Titan. Furthermore,
the ablation study indicates supplying higher context information to the pose
prediction module can be detrimental for anticipatory recognition. CGAP2 has a
1-second time advantage compared to other gesture recognition systems, which
can be crucial for autonomous vehicles.
- Abstract(参考訳): 自動運転車の運転に対する関心が高まっているため、人間と車両の相互作用に対する効率的な予測ジェスチャー認識システムの必要性が等しく高まっている。
既存のジェスチャー認識アルゴリズムは主に歴史的データに制限されている。
本稿では,ジェスチャーの予測的認識のための将来的なポーズデータを予測する,新しいコンテキストとギャップ認識型ポーズ予測フレームワーク(CGAP2)を提案する。
CGAP2は、将来のフレームを予測するためのポーズ予測モジュールと組み合わせたエンコーダ・デコーダアーキテクチャを実装している。
cgap2ポーズ予測モジュールは3次元畳み込み層を使用し、供給されるポーズフレーム数、各ポーズフレーム間の時間差、予測されたポーズフレーム数に依存する。
CGAP2の性能はMPJPEメトリックを用いてHuman3.6Mデータセットで評価される。
予め15フレームのポーズ予測を行うには、79.0mmの誤差が与えられる。
ポーズ予測モジュールは26Mパラメータのみで構成され、NVidia RTX Titan上で50FPSで動作可能である。
さらに、アブレーション研究は、ポーズ予測モジュールにより高いコンテキスト情報を供給することは、予測認識に不利であることを示す。
CGAP2は、他のジェスチャー認識システムに比べて1秒のアドバンテージがある。
関連論文リスト
- Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - A new way of video compression via forward-referencing using deep
learning [0.0]
本稿では,すでに符号化されたフレームから人間のポーズをモデル化し,新しい映像符号化手法を提案する。
提案手法は,従来の後方参照フレームの限界を克服できると考えられる。
実験結果から,提案手法は最大2.83dBのPSNRゲインと25.93%の残留保存をハイモーションビデオシーケンスに適用できることがわかった。
論文 参考訳(メタデータ) (2022-08-13T16:19:11Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - GPRAR: Graph Convolutional Network based Pose Reconstruction and Action
Recognition for Human Trajectory Prediction [1.2891210250935146]
既存の予測モデルは、観察がしばしば騒がしい現実世界の設定でエラーを起こしやすい。
GPRARは、人間の軌道予測のためのグラフ畳み込みネットワークベースのポーズ再構築とアクション認識です。
JAADおよびTITANデータセットのノイズ観測により,GPRARは予測精度を最大22%,50%向上させることを示した。
論文 参考訳(メタデータ) (2021-03-25T20:12:14Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。