論文の概要: On the Benefits of 3D Pose and Tracking for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2304.01199v2
- Date: Mon, 7 Aug 2023 05:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:19:04.369637
- Title: On the Benefits of 3D Pose and Tracking for Human Action Recognition
- Title(参考訳): 人間の行動認識における3次元ポーズとトラッキングの利点について
- Authors: Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Christoph
Feichtenhofer, Jitendra Malik
- Abstract要約: 動作認識のためのトラッキングと3Dポーズの利点を示す。
トラックレット上での3次元ポーズと文脈的外観を融合させることにより,ラグランジアン行動認識モデルを提案する。
提案手法は,AVA v2.2データセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 77.07134833715273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we study the benefits of using tracking and 3D poses for action
recognition. To achieve this, we take the Lagrangian view on analysing actions
over a trajectory of human motion rather than at a fixed point in space. Taking
this stand allows us to use the tracklets of people to predict their actions.
In this spirit, first we show the benefits of using 3D pose to infer actions,
and study person-person interactions. Subsequently, we propose a Lagrangian
Action Recognition model by fusing 3D pose and contextualized appearance over
tracklets. To this end, our method achieves state-of-the-art performance on the
AVA v2.2 dataset on both pose only settings and on standard benchmark settings.
When reasoning about the action using only pose cues, our pose model achieves
+10.0 mAP gain over the corresponding state-of-the-art while our fused model
has a gain of +2.8 mAP over the best state-of-the-art model. Code and results
are available at: https://brjathu.github.io/LART
- Abstract(参考訳): 本研究では,行動認識のためのトラッキングと3Dポーズの利点について検討する。
これを達成するために、空間の定点ではなく、人間の運動の軌道上の行動を分析するラグランジュ的視点を採る。
この立場を取ることで、人々のトラックレットを使って行動を予測することができます。
この精神の中では、まず3Dのポーズを用いて行動を推測し、対人インタラクションを研究することの利点を示す。
次に,トラックレット上での3次元ポーズと文脈的外観を用いてラグランジュ的行動認識モデルを提案する。
そこで本手法は,AVA v2.2データセットのポーズのみの設定と標準ベンチマーク設定の両方で,最先端のパフォーマンスを実現する。
ポーズキューのみを用いてアクションを推論すると、ポーズモデルは対応する最先端モデルに対して+10.0mAP、融合モデルは最高の最先端モデルに対して+2.8mAPとなる。
コードと結果は以下の通りである。 https://brjathu.github.io/lart
関連論文リスト
- HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - 3D Pose Estimation and Future Motion Prediction from 2D Images [26.28886209268217]
本稿では,3次元人物のポーズを推定し,RGB画像列から将来の3次元動作を予測するという,高相関な課題に共同で取り組むことを検討する。
リー代数のポーズ表現に基づいて、人間の運動キネマティクスを自然に保存する新しい自己投射機構が提案されている。
論文 参考訳(メタデータ) (2021-11-26T01:02:00Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Skeleton-DML: Deep Metric Learning for Skeleton-Based One-Shot Action
Recognition [0.5161531917413706]
ワンショットアクション認識は、単一のトレーニング例だけで、人間のパフォーマンスアクションの認識を可能にする。
これは、ロボットが以前に見つからなかった行動に反応できるようにすることで、人間とロボットの相互作用に正の影響を与える。
本稿では,メートル法学習環境において良好に機能する新しい画像に基づく骨格表現を提案する。
論文 参考訳(メタデータ) (2020-12-26T22:31:11Z) - History Repeats Itself: Human Motion Prediction via Motion Attention [81.94175022575966]
注意に基づくフィードフォワードネットワークを導入し、人間の動きが自分自身を繰り返す傾向にあるという観察を明示的に活用する。
特に,現在動きのコンテキストと過去の動きのサブシーケンスの類似性を捉えるために,動きの注意を抽出することを提案する。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を実証した。
論文 参考訳(メタデータ) (2020-07-23T02:12:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。