論文の概要: Social-Transmotion: Promptable Human Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2312.16168v1
- Date: Tue, 26 Dec 2023 18:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:36:45.038822
- Title: Social-Transmotion: Promptable Human Trajectory Prediction
- Title(参考訳): 社会的移動:迅速な人間の軌道予測
- Authors: Saeed Saadatnejad and Yang Gao and Kaouther Messaoud and Alexandre
Alahi
- Abstract要約: ソーシャルトランスモーション(Social-Transmotion)は、トランスフォーマーのパワーを利用して、多種多様な視覚的手がかりを扱う汎用モデルである。
提案手法は,JTA,JRDB,道路交通の歩行者・自転車,ETH-UCYなど,複数のデータセットで検証されている。
- 参考スコア(独自算出の注目度): 70.59399670794171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate human trajectory prediction is crucial for applications such as
autonomous vehicles, robotics, and surveillance systems. Yet, existing models
often fail to fully leverage the non-verbal social cues human subconsciously
communicate when navigating the space. To address this, we introduce
Social-Transmotion, a generic model that exploits the power of transformers to
handle diverse and numerous visual cues, capturing the multi-modal nature of
human behavior. We translate the idea of a prompt from Natural Language
Processing (NLP) to the task of human trajectory prediction, where a prompt can
be a sequence of x-y coordinates on the ground, bounding boxes or body poses.
This, in turn, augments trajectory data, leading to enhanced human trajectory
prediction. Our model exhibits flexibility and adaptability by capturing
spatiotemporal interactions between pedestrians based on the available visual
cues, whether they are poses, bounding boxes, or a combination thereof. By the
masking technique, we ensure our model's effectiveness even when certain visual
cues are unavailable, although performance is further boosted with the presence
of comprehensive visual data. We delve into the merits of using 2d versus 3d
poses, and a limited set of poses. Additionally, we investigate the spatial and
temporal attention map to identify which keypoints and frames of poses are
vital for optimizing human trajectory prediction. Our approach is validated on
multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road
Traffic, and ETH-UCY. The code is publicly available:
https://github.com/vita-epfl/social-transmotion
- Abstract(参考訳): 正確な人間の軌道予測は、自動運転車、ロボット工学、監視システムなどの応用に不可欠である。
しかし、既存のモデルは、人間が空間をナビゲートする際に意識的にコミュニケーションする非言語的な社会的手がかりを完全に活用できないことが多い。
そこで本研究では,トランスフォーマーのパワーを利用して多様で多彩な視覚手がかりを処理し,人間の行動のマルチモーダルな性質を捉える汎用モデルであるsocial-transmotionを提案する。
我々は、自然言語処理(nlp)から人間の軌道予測のタスクにプロンプトの概念を翻訳し、プロンプトは地上のx-y座標のシーケンスであり、ボックスやボディポーズにバウンドする。
これにより、軌跡データが増大し、人間の軌跡予測が強化される。
本モデルでは,ポーズ,バウンディングボックス,コンビネーションのいずれであっても,利用可能な視覚手がかりに基づいて歩行者間の空間的相互作用を捉えることで,柔軟性と適応性を示す。
マスキング手法により,視覚情報の存在により性能はさらに向上するが,特定の視覚手がかりが使用できない場合でも,モデルの有効性を保証する。
2d対3dのポーズと、限られたポーズの組み合わせの利点を掘り下げる。
また,人間の軌道予測の最適化において,ポーズのどのキーポイントとフレームが不可欠かを特定するために,空間的および時間的注意マップを調査した。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
コードは公開されています。 https://github.com/vita-epfl/social-transmotion
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。
結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。
我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文 参考訳(メタデータ) (2023-09-29T13:02:56Z) - Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。
本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。
この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文 参考訳(メタデータ) (2022-06-28T17:59:45Z) - Development of Human Motion Prediction Strategy using Inception Residual
Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。
我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。
提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文 参考訳(メタデータ) (2021-08-09T12:49:48Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。