論文の概要: MotionMap: Representing Multimodality in Human Pose Forecasting
- arxiv url: http://arxiv.org/abs/2412.18883v1
- Date: Wed, 25 Dec 2024 11:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:11.125273
- Title: MotionMap: Representing Multimodality in Human Pose Forecasting
- Title(参考訳): MotionMap: ヒューマンポーズ予測におけるマルチモーダリティの表現
- Authors: Reyhaneh Hosseininejad, Megh Shukla, Saeed Saadatnejad, Mathieu Salzmann, Alexandre Alahi,
- Abstract要約: タスクを適切に配置するための代替パラダイムを提案する。
最先端の手法はマルチモーダリティを予測するが、これは大量の予測をオーバーサンプリングする必要がある。
マルチモーダリティのためのシンプルなヒートマップベースの表現であるMotionMapを用いて,これらの問題に対処する。
- 参考スコア(独自算出の注目度): 98.26350593416674
- License:
- Abstract: Human pose forecasting is inherently multimodal since multiple futures exist for an observed pose sequence. However, evaluating multimodality is challenging since the task is ill-posed. Therefore, we first propose an alternative paradigm to make the task well-posed. Next, while state-of-the-art methods predict multimodality, this requires oversampling a large volume of predictions. This raises key questions: (1) Can we capture multimodality by efficiently sampling a smaller number of predictions? (2) Subsequently, which of the predicted futures is more likely for an observed pose sequence? We address these questions with MotionMap, a simple yet effective heatmap based representation for multimodality. We extend heatmaps to represent a spatial distribution over the space of all possible motions, where different local maxima correspond to different forecasts for a given observation. MotionMap can capture a variable number of modes per observation and provide confidence measures for different modes. Further, MotionMap allows us to introduce the notion of uncertainty and controllability over the forecasted pose sequence. Finally, MotionMap captures rare modes that are non-trivial to evaluate yet critical for safety. We support our claims through multiple qualitative and quantitative experiments using popular 3D human pose datasets: Human3.6M and AMASS, highlighting the strengths and limitations of our proposed method. Project Page: https://www.epfl.ch/labs/vita/research/prediction/motionmap/
- Abstract(参考訳): 人間のポーズ予測は、観察されたポーズシーケンスのために複数の未来が存在するため、本質的にマルチモーダルである。
しかし、タスクが不適切であるため、マルチモーダリティの評価は困難である。
そこで本研究ではまず,タスクを適切に提示するための代替パラダイムを提案する。
次に、最先端の手法がマルチモーダリティを予測する一方で、大量の予測をオーバーサンプリングする必要がある。
1) 少ない数の予測を効率的にサンプリングすることで、マルチモーダリティを捉えることができるか?
2) その後、観測されたポーズシーケンスに対して予測される未来はどちらになるか。
マルチモーダリティのためのシンプルなヒートマップベースの表現であるMotionMapを用いて,これらの問題に対処する。
我々は、すべての可能な運動の空間上の空間分布を表すために、熱マップを拡張し、そこでは、異なる局所極大が与えられた観測に対する異なる予測に対応する。
MotionMapは、観測毎にさまざまなモードをキャプチャし、異なるモードに対する信頼性測定を提供する。
さらに、MotionMapは予測されたポーズシーケンスに対して不確実性と制御可能性の概念を導入することができる。
最後に、MotionMapは、安全のために重要でありながら評価しにくいレアモードをキャプチャする。
我々は、一般的な3DポーズデータセットであるHuman3.6MとAMASSを用いて、複数の定性的かつ定量的な実験を行い、提案手法の強みと限界を強調した。
プロジェクトページ: https://www.epfl.ch/labs/vita/research/prediction/motionmap/
関連論文リスト
- Learning Snippet-to-Motion Progression for Skeleton-based Human Motion
Prediction [14.988322340164391]
人間の動きを予測するために既存のグラフ畳み込みネットワークは、主にワンステップのスキームを採用している。
人間の動きはトランジションパターンを持ち、各トランジションを表すスニペットに分割することができる。
動作予測をサブタスクに分割するスニペット・ツー・モーション・マルチステージ・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:36:38Z) - Diverse Human Motion Prediction Guided by Multi-Level Spatial-Temporal
Anchors [21.915057426589744]
本稿では,サンプルの精度と多様性を促進するために,ランダムなサンプルコードと,決定論的に学習可能なコンポーネントであるアンカーを分離する,単純かつ効果的なアプローチを提案する。
原則として、時空間アンカーベースサンプリング(STARS)は、異なる動き予測器に適用できる。
論文 参考訳(メタデータ) (2023-02-09T18:58:07Z) - PREF: Predictability Regularized Neural Motion Fields [68.60019434498703]
ダイナミックなシーンで3Dの動きを知ることは、多くの視覚応用にとって不可欠である。
多視点設定における全ての点の運動を推定するために神経運動場を利用する。
予測可能な動きを正規化することを提案する。
論文 参考訳(メタデータ) (2022-09-21T22:32:37Z) - Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet [24.852728097115744]
RGBからの多人数ポーズ理解には、ポーズ推定、トラッキング、動き予測という3つの複雑なタスクが含まれる。
既存の作業の多くは、ひとつのタスクに集中するか、複数のタスクを別々に解決するためのマルチステージアプローチを採用するかのどちらかです。
Snipperは、複数の人物によるポーズ推定、追跡、動き予測を同時に行うための統合されたフレームワークである。
論文 参考訳(メタデータ) (2022-07-09T18:42:14Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - Forecasting Characteristic 3D Poses of Human Actions [24.186058965796157]
本研究では,人物のモノクロ映像から特徴的3Dポーズを予測し,その人物の将来的な3Dポーズを,アクション定義可能な特徴的ポーズで予測するタスクを提案する。
我々は、目標指向行動からインスピレーションを得て、予測されたポーズを時間から切り離す意味論的に意味のあるポーズ予測タスクを定義する。
このデータセットを用いた実験により,提案手法は最先端手法を平均22%上回る確率的手法であることが示唆された。
論文 参考訳(メタデータ) (2020-11-30T18:20:17Z) - Motion Prediction Using Temporal Inception Module [96.76721173517895]
人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
本フレームワークは,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。
論文 参考訳(メタデータ) (2020-10-06T20:26:01Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。