論文の概要: GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction
- arxiv url: http://arxiv.org/abs/2409.20223v1
- Date: Mon, 30 Sep 2024 12:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 12:56:53.663496
- Title: GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction
- Title(参考訳): GTransPDM:歩行者交叉意図予測のための位置疎結合グラフ埋め込み変換器
- Authors: Chen Xie, Ciyun Lin, Xiaoyu Zheng, Bowen Gong, Dayong Wu, Antonio M. López,
- Abstract要約: GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
- 参考スコア(独自算出の注目度): 6.327758022051579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and predicting pedestrian crossing behavioral intention is crucial for autonomous vehicles driving safety. Nonetheless, challenges emerge when using promising images or environmental context masks to extract various factors for time-series network modeling, causing pre-processing errors or a loss in efficiency. Typically, pedestrian positions captured by onboard cameras are often distorted and do not accurately reflect their actual movements. To address these issues, GTransPDM -- a Graph-embedded Transformer with a Position Decoupling Module -- was developed for pedestrian crossing intention prediction by leveraging multi-modal features. First, a positional decoupling module was proposed to decompose the pedestrian lateral movement and simulate depth variations in the image view. Then, a graph-embedded Transformer was designed to capture the spatial-temporal dynamics of human pose skeletons, integrating essential factors such as position, skeleton, and ego-vehicle motion. Experimental results indicate that the proposed method achieves 92% accuracy on the PIE dataset and 87% accuracy on the JAAD dataset, with a processing speed of 0.05ms. It outperforms the state-of-the-art in comparison.
- Abstract(参考訳): 歩行者横断行動意図の理解と予測は、自動運転車の安全運転にとって不可欠である。
それでも、有望なイメージや環境コンテキストマスクを使用して時系列ネットワークモデリングのさまざまな要因を抽出し、前処理エラーや効率の低下を引き起こすと、課題が生じる。
通常、車載カメラで捉えた歩行者の位置はしばしば歪んでいて、実際の動きを正確に反映しない。
これらの問題に対処するため,多モード特徴を活用して歩行者横断意図予測のためにGTransPDM(位置分離モジュール付きグラフ組込み変圧器)を開発した。
まず、歩行者の側方移動を分解し、画像ビューの深さ変化をシミュレートする位置分離モジュールを提案する。
そして、グラフ埋め込みトランスフォーマーは、人間のポーズ骨格の空間的時間的ダイナミクスを捉え、位置、骨格、エゴ車の動きといった重要な要素を統合するように設計された。
実験の結果,提案手法はPIEデータセットでは92%,JAADデータセットでは87%,処理速度は0.05msであることがわかった。
比較すると、最先端よりも優れています。
関連論文リスト
- AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition [8.841708075914353]
運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
論文 参考訳(メタデータ) (2024-03-11T10:26:38Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。
本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:13:32Z) - Pedestrian Trajectory Prediction via Spatial Interaction Transformer
Network [7.150832716115448]
交通現場では、来るべき人々と出会うと、歩行者は突然回転したり、すぐに止まることがある。
このような予測不可能な軌道を予測するために、歩行者間の相互作用についての洞察を得ることができる。
本稿では,歩行者軌跡の相関関係を注意機構を用いて学習する空間的相互作用変換器(SIT)を提案する。
論文 参考訳(メタデータ) (2021-12-13T13:08:04Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting [91.69900691029908]
我々は、個々の動きとシーン占有マップの両方を予測することを提唱する。
歩行者の相対的な空間情報を保存するScene-Actor Graph Neural Network (SA-GNN)を提案する。
2つの大規模な実世界のデータセットで、我々のシーン占有率予測が最先端のモーション予測手法よりも正確でより校正されていることを示した。
論文 参考訳(メタデータ) (2021-01-07T06:08:21Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。