論文の概要: Social-Transmotion: Promptable Human Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2312.16168v1
- Date: Tue, 26 Dec 2023 18:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:36:45.038822
- Title: Social-Transmotion: Promptable Human Trajectory Prediction
- Title(参考訳): 社会的移動:迅速な人間の軌道予測
- Authors: Saeed Saadatnejad and Yang Gao and Kaouther Messaoud and Alexandre
Alahi
- Abstract要約: ソーシャルトランスモーション(Social-Transmotion)は、トランスフォーマーのパワーを利用して、多種多様な視覚的手がかりを扱う汎用モデルである。
提案手法は,JTA,JRDB,道路交通の歩行者・自転車,ETH-UCYなど,複数のデータセットで検証されている。
- 参考スコア(独自算出の注目度): 70.59399670794171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate human trajectory prediction is crucial for applications such as
autonomous vehicles, robotics, and surveillance systems. Yet, existing models
often fail to fully leverage the non-verbal social cues human subconsciously
communicate when navigating the space. To address this, we introduce
Social-Transmotion, a generic model that exploits the power of transformers to
handle diverse and numerous visual cues, capturing the multi-modal nature of
human behavior. We translate the idea of a prompt from Natural Language
Processing (NLP) to the task of human trajectory prediction, where a prompt can
be a sequence of x-y coordinates on the ground, bounding boxes or body poses.
This, in turn, augments trajectory data, leading to enhanced human trajectory
prediction. Our model exhibits flexibility and adaptability by capturing
spatiotemporal interactions between pedestrians based on the available visual
cues, whether they are poses, bounding boxes, or a combination thereof. By the
masking technique, we ensure our model's effectiveness even when certain visual
cues are unavailable, although performance is further boosted with the presence
of comprehensive visual data. We delve into the merits of using 2d versus 3d
poses, and a limited set of poses. Additionally, we investigate the spatial and
temporal attention map to identify which keypoints and frames of poses are
vital for optimizing human trajectory prediction. Our approach is validated on
multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road
Traffic, and ETH-UCY. The code is publicly available:
https://github.com/vita-epfl/social-transmotion
- Abstract(参考訳): 正確な人間の軌道予測は、自動運転車、ロボット工学、監視システムなどの応用に不可欠である。
しかし、既存のモデルは、人間が空間をナビゲートする際に意識的にコミュニケーションする非言語的な社会的手がかりを完全に活用できないことが多い。
そこで本研究では,トランスフォーマーのパワーを利用して多様で多彩な視覚手がかりを処理し,人間の行動のマルチモーダルな性質を捉える汎用モデルであるsocial-transmotionを提案する。
我々は、自然言語処理(nlp)から人間の軌道予測のタスクにプロンプトの概念を翻訳し、プロンプトは地上のx-y座標のシーケンスであり、ボックスやボディポーズにバウンドする。
これにより、軌跡データが増大し、人間の軌跡予測が強化される。
本モデルでは,ポーズ,バウンディングボックス,コンビネーションのいずれであっても,利用可能な視覚手がかりに基づいて歩行者間の空間的相互作用を捉えることで,柔軟性と適応性を示す。
マスキング手法により,視覚情報の存在により性能はさらに向上するが,特定の視覚手がかりが使用できない場合でも,モデルの有効性を保証する。
2d対3dのポーズと、限られたポーズの組み合わせの利点を掘り下げる。
また,人間の軌道予測の最適化において,ポーズのどのキーポイントとフレームが不可欠かを特定するために,空間的および時間的注意マップを調査した。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
コードは公開されています。 https://github.com/vita-epfl/social-transmotion
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Fixating on Attention: Integrating Human Eye Tracking into Vision
Transformers [5.221681407166792]
この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。
我々は、人体と視覚変換器(ViT)の両方で見られるように、左右駆動決定における固定領域の重要性を確立する。
運転現場からの情報を固定データに組み込み、JSF(Joint Space-fixation)のアテンション設定を取り入れ、最後に、人が固定した地域と同じ領域でViTモデルをトレーニングするための「固定アテンション交差点」(FAX)の損失を提案する。
論文 参考訳(メタデータ) (2023-08-26T22:48:06Z) - Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。
本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。
この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文 参考訳(メタデータ) (2022-06-28T17:59:45Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Development of Human Motion Prediction Strategy using Inception Residual
Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。
我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。
提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文 参考訳(メタデータ) (2021-08-09T12:49:48Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - 3D Human motion anticipation and classification [8.069283749930594]
人間の動き予測と特徴学習のための新しいシーケンス・トゥ・シークエンスモデルを提案する。
我々のモデルは、同じ入力シーケンスから複数の人間のポーズの将来のシーケンスを予測することを学習する。
識別器から学習した特徴を用いて,行動認識ネットワークを訓練するには,エポック数の半分以下しかかからないことを示す。
論文 参考訳(メタデータ) (2020-12-31T00:19:39Z) - Graph2Kernel Grid-LSTM: A Multi-Cued Model for Pedestrian Trajectory
Prediction by Learning Adaptive Neighborhoods [10.57164270098353]
本稿では,歩行者地区がデザインに適応しうることを提案することによって,インタラクションモデリングの新しい視点を示す。
我々のモデルは、いくつかの公開テストされた監視ビデオに類似した特徴を照合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-03T19:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。