Fugu-MT 論文翻訳(概要): Social-Transmotion: Promptable Human Trajectory Prediction

論文の概要: Social-Transmotion: Promptable Human Trajectory Prediction

arxiv url: http://arxiv.org/abs/2312.16168v1
Date: Tue, 26 Dec 2023 18:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 14:36:45.038822
Title: Social-Transmotion: Promptable Human Trajectory Prediction
Title（参考訳）: 社会的移動:迅速な人間の軌道予測
Authors: Saeed Saadatnejad and Yang Gao and Kaouther Messaoud and Alexandre Alahi
Abstract要約: ソーシャルトランスモーション(Social-Transmotion)は、トランスフォーマーのパワーを利用して、多種多様な視覚的手がかりを扱う汎用モデルである。提案手法は,JTA,JRDB,道路交通の歩行者・自転車,ETH-UCYなど,複数のデータセットで検証されている。
参考スコア（独自算出の注目度）: 70.59399670794171
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate human trajectory prediction is crucial for applications such as autonomous vehicles, robotics, and surveillance systems. Yet, existing models often fail to fully leverage the non-verbal social cues human subconsciously communicate when navigating the space. To address this, we introduce Social-Transmotion, a generic model that exploits the power of transformers to handle diverse and numerous visual cues, capturing the multi-modal nature of human behavior. We translate the idea of a prompt from Natural Language Processing (NLP) to the task of human trajectory prediction, where a prompt can be a sequence of x-y coordinates on the ground, bounding boxes or body poses. This, in turn, augments trajectory data, leading to enhanced human trajectory prediction. Our model exhibits flexibility and adaptability by capturing spatiotemporal interactions between pedestrians based on the available visual cues, whether they are poses, bounding boxes, or a combination thereof. By the masking technique, we ensure our model's effectiveness even when certain visual cues are unavailable, although performance is further boosted with the presence of comprehensive visual data. We delve into the merits of using 2d versus 3d poses, and a limited set of poses. Additionally, we investigate the spatial and temporal attention map to identify which keypoints and frames of poses are vital for optimizing human trajectory prediction. Our approach is validated on multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road Traffic, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/social-transmotion
Abstract（参考訳）: 正確な人間の軌道予測は、自動運転車、ロボット工学、監視システムなどの応用に不可欠である。しかし、既存のモデルは、人間が空間をナビゲートする際に意識的にコミュニケーションする非言語的な社会的手がかりを完全に活用できないことが多い。そこで本研究では,トランスフォーマーのパワーを利用して多様で多彩な視覚手がかりを処理し,人間の行動のマルチモーダルな性質を捉える汎用モデルであるsocial-transmotionを提案する。我々は、自然言語処理(nlp)から人間の軌道予測のタスクにプロンプトの概念を翻訳し、プロンプトは地上のx-y座標のシーケンスであり、ボックスやボディポーズにバウンドする。これにより、軌跡データが増大し、人間の軌跡予測が強化される。本モデルでは,ポーズ,バウンディングボックス,コンビネーションのいずれであっても,利用可能な視覚手がかりに基づいて歩行者間の空間的相互作用を捉えることで,柔軟性と適応性を示す。マスキング手法により,視覚情報の存在により性能はさらに向上するが,特定の視覚手がかりが使用できない場合でも,モデルの有効性を保証する。 2d対3dのポーズと、限られたポーズの組み合わせの利点を掘り下げる。また,人間の軌道予測の最適化において,ポーズのどのキーポイントとフレームが不可欠かを特定するために,空間的および時間的注意マップを調査した。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。コードは公開されています。 https://github.com/vita-epfl/social-transmotion

関連論文リスト

Social-Pose: Enhancing Trajectory Prediction with Human Body Pose [70.59399670794171]
本研究では,人体ポーズを用いた人体軌道予測の利点について検討した。我々は,シーン内のすべての人間のポーズとその社会的関係を効果的にキャプチャするアテンションベースのポーズエンコーダであるSocial-poseを提案する。
論文参考訳（メタデータ） (2025-07-30T14:58:48Z)
UPTor: Unified 3D Human Pose Dynamics and Trajectory Prediction for Human-Robot Interaction [0.688204255655161]
本研究では,グローバル座標フレームにおける全体ポーズと軌道キーポイントの予測手法を提案する。我々は、市販の3次元ポーズ推定モジュール、グラフアテンションネットワーク、コンパクトで非自己回帰的なトランスフォーマーを使用する。従来の研究と比較して、我々のアプローチはコンパクトでリアルタイムであり、全てのデータセットにわたる人間のナビゲーション動作を予測する上で正確であることを示す。
論文参考訳（メタデータ） (2025-05-20T19:57:25Z)
Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文参考訳（メタデータ） (2024-11-04T23:15:21Z)
Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文参考訳（メタデータ） (2024-05-05T12:38:10Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文参考訳（メタデータ） (2024-02-29T18:57:37Z)
Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文参考訳（メタデータ） (2023-09-29T13:02:56Z)
Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文参考訳（メタデータ） (2022-06-28T17:59:45Z)
Development of Human Motion Prediction Strategy using Inception Residual Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文参考訳（メタデータ） (2021-08-09T12:49:48Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。