論文の概要: Social-Transmotion: Promptable Human Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2312.16168v2
- Date: Tue, 16 Apr 2024 21:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 00:16:23.495641
- Title: Social-Transmotion: Promptable Human Trajectory Prediction
- Title(参考訳): 社会移動:予測可能な人間の軌道予測
- Authors: Saeed Saadatnejad, Yang Gao, Kaouther Messaoud, Alexandre Alahi,
- Abstract要約: Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
- 参考スコア(独自算出の注目度): 65.80068316170613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate human trajectory prediction is crucial for applications such as autonomous vehicles, robotics, and surveillance systems. Yet, existing models often fail to fully leverage the non-verbal social cues human subconsciously communicate when navigating the space. To address this, we introduce Social-Transmotion, a generic Transformer-based model that exploits diverse and numerous visual cues to predict human behavior. We translate the idea of a prompt from Natural Language Processing (NLP) to the task of human trajectory prediction, where a prompt can be a sequence of x-y coordinates on the ground, bounding boxes in the image plane, or body pose keypoints in either 2D or 3D. This, in turn, augments trajectory data, leading to enhanced human trajectory prediction. Using masking technique, our model exhibits flexibility and adaptability by capturing spatiotemporal interactions between agents based on the available visual cues. We delve into the merits of using 2D versus 3D poses, and a limited set of poses. Additionally, we investigate the spatial and temporal attention map to identify which keypoints and time-steps in the sequence are vital for optimizing human trajectory prediction. Our approach is validated on multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road Traffic, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/social-transmotion.
- Abstract(参考訳): 正確な人間の軌道予測は、自動運転車、ロボット工学、監視システムなどの応用に不可欠である。
しかし、既存のモデルでは、人間が空間をナビゲートする際に意識的にコミュニケーションする非言語的な社会的手がかりを十分に活用できないことが多い。
これを解決するために,多種多様な視覚的手がかりを利用して人間の行動を予測する汎用トランスフォーマーモデルであるSocial-Transmotionを導入する。
自然言語処理(NLP)から人間の軌道予測のタスクへのプロンプトのアイデアを変換し、そこでは、プロンプトを地上のx-y座標列、画像平面のボックスの境界、または2Dまたは3Dでキーポイントをポーズさせる。
これにより、軌跡データが増大し、人間の軌跡予測が強化される。
マスキング手法を用いて、利用可能な視覚的手がかりに基づいてエージェント間の時空間的相互作用を捕捉し、柔軟性と適応性を示す。
2D対3Dのポーズと、限られたポーズの組み合わせのメリットを掘り下げる。
さらに,人間の軌道予測を最適化するためには,どのキーポイントと時間ステップが不可欠かを特定するための空間的・時間的注意マップについても検討する。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
コードは、https://github.com/vita-epfl/social-transmotion.comで公開されている。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。
結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。
我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文 参考訳(メタデータ) (2023-09-29T13:02:56Z) - Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。
本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。
この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文 参考訳(メタデータ) (2022-06-28T17:59:45Z) - Development of Human Motion Prediction Strategy using Inception Residual
Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。
我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。
提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文 参考訳(メタデータ) (2021-08-09T12:49:48Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。