論文の概要: Multi-Transmotion: Pre-trained Model for Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2411.02673v1
- Date: Mon, 04 Nov 2024 23:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:01.469769
- Title: Multi-Transmotion: Pre-trained Model for Human Motion Prediction
- Title(参考訳): マルチトランスモーション:人間の動作予測のための事前学習モデル
- Authors: Yang Gao, Po-Chien Luan, Alexandre Alahi,
- Abstract要約: マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
- 参考スコア(独自算出の注目度): 68.87010221355223
- License:
- Abstract: The ability of intelligent systems to predict human behaviors is crucial, particularly in fields such as autonomous vehicle navigation and social robotics. However, the complexity of human motion have prevented the development of a standardized dataset for human motion prediction, thereby hindering the establishment of pre-trained models. In this paper, we address these limitations by integrating multiple datasets, encompassing both trajectory and 3D pose keypoints, to propose a pre-trained model for human motion prediction. We merge seven distinct datasets across varying modalities and standardize their formats. To facilitate multimodal pre-training, we introduce Multi-Transmotion, an innovative transformer-based model designed for cross-modality pre-training. Additionally, we present a novel masking strategy to capture rich representations. Our methodology demonstrates competitive performance across various datasets on several downstream tasks, including trajectory prediction in the NBA and JTA datasets, as well as pose prediction in the AMASS and 3DPW datasets. The code is publicly available: https://github.com/vita-epfl/multi-transmotion
- Abstract(参考訳): インテリジェントなシステムが人間の行動を予測する能力は、特に自動運転車のナビゲーションや社会ロボティクスといった分野において重要である。
しかし、人間の動きの複雑さは、人間の動きを予測するための標準化されたデータセットの開発を妨げ、事前訓練されたモデルの確立を妨げている。
本稿では、これらの制約を、軌道と3Dポーズの両方のキーポイントを含む複数のデータセットを統合することで解決し、人間の動き予測のための事前学習モデルを提案する。
私たちは7つの異なるデータセットをさまざまなモダリティにマージし、フォーマットを標準化します。
マルチモーダル事前学習を容易にするために,クロスモーダル事前学習用に設計された革新的トランスフォーマーベースモデルであるMulti-Transmotionを導入する。
さらに、豊かな表現を捉えるための新しいマスキング戦略を提案する。
提案手法は,NBAおよびJTAデータセットにおける軌道予測や,AMASSおよび3DPWデータセットにおける姿勢予測など,下流タスクにおける各種データセット間の競合性能を示す。
コードは公開されています。 https://github.com/vita-epfl/multi-transmotion
関連論文リスト
- SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction [37.461695201579914]
動作予測のための汎用的でスケーラブルなフレームワークであるSmartPretrainを提案する。
提案手法は対照的かつ再構成的なSSLを統合し,生成的パラダイムと識別的パラダイムの両方の長所を活用する。
SmartPretrainは、データセット、データ分割、主要なメトリクスにわたる最先端の予測モデルのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2024-10-11T09:52:26Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion
Prediction [13.177817435234449]
3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
本稿では,モーションキャプチャシステムによって収集された複数の個体の骨格配列を含むMI-Motionデータセットを提案する。
データセットには、人々のスケルトンポーズを対話する167kフレームが含まれており、5つの異なるアクティビティシーンに分類される。
論文 参考訳(メタデータ) (2023-06-23T15:38:22Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - AC-VRNN: Attentive Conditional-VRNN for Multi-Future Trajectory
Prediction [30.61190086847564]
条件付き変動リカレントニューラルネットワーク(C-VRNN)に基づくマルチフューチャ軌道予測のための生成アーキテクチャを提案する。
ヒューマンインタラクションは、繰り返し推定のオンライン注意深い隠れ状態改善を可能にするグラフベースのアテンションメカニズムでモデル化される。
論文 参考訳(メタデータ) (2020-05-17T17:21:23Z) - Trajectron++: Dynamically-Feasible Trajectory Forecasting With
Heterogeneous Data [37.176411554794214]
人間の動きに関する推論は、安全で社会的に認識されたロボットナビゲーションにとって重要な前提条件である。
我々は,多種多様なエージェントの軌道を予測できるモジュール型グラフ構造化リカレントモデルであるTrajectron++を提案する。
実世界の軌道予測データセットにおいて,その性能を実証する。
論文 参考訳(メタデータ) (2020-01-09T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。