論文の概要: Pedestrian Crossing Intention Prediction Using Multimodal Fusion Network
- arxiv url: http://arxiv.org/abs/2511.20008v1
- Date: Tue, 25 Nov 2025 07:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.332978
- Title: Pedestrian Crossing Intention Prediction Using Multimodal Fusion Network
- Title(参考訳): マルチモーダル核融合ネットワークを用いた歩行者交差意図予測
- Authors: Yuanzhe Li, Steffen Müller,
- Abstract要約: 歩行者の横断意図予測は、都市環境における自動運転車(AV)の展開に不可欠である。
本稿では,視覚と運動の両方から7つのモダリティ特徴を生かしたマルチモーダル融合ネットワークを提案する。
JAADデータセットの実験では,提案したネットワークの有効性が検証され,ベースライン法よりも優れた性能が得られた。
- 参考スコア(独自算出の注目度): 3.878105750489656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian crossing intention prediction is essential for the deployment of autonomous vehicles (AVs) in urban environments. Ideal prediction provides AVs with critical environmental cues, thereby reducing the risk of pedestrian-related collisions. However, the prediction task is challenging due to the diverse nature of pedestrian behavior and its dependence on multiple contextual factors. This paper proposes a multimodal fusion network that leverages seven modality features from both visual and motion branches, aiming to effectively extract and integrate complementary cues across different modalities. Specifically, motion and visual features are extracted from the raw inputs using multiple Transformer-based extraction modules. Depth-guided attention module leverages depth information to guide attention towards salient regions in another modality through comprehensive spatial feature interactions. To account for the varying importance of different modalities and frames, modality attention and temporal attention are designed to selectively emphasize informative modalities and effectively capture temporal dependencies. Extensive experiments on the JAAD dataset validate the effectiveness of the proposed network, achieving superior performance compared to the baseline methods.
- Abstract(参考訳): 歩行者の横断意図予測は、都市環境における自動運転車(AV)の展開に不可欠である。
理想的な予測は、AVに重要な環境条件を与え、歩行者関連の衝突のリスクを低減させる。
しかし,歩行者行動の多様な性質と,その環境要因に依存しているため,予測課題は困難である。
本稿では,視覚と運動の両方から7つのモダリティ特性を利用するマルチモーダル融合ネットワークを提案する。
具体的には、複数のTransformerベースの抽出モジュールを用いて、原入力から動きと視覚的特徴を抽出する。
奥行き誘導型アテンションモジュールは、深度情報を利用して、空間的特徴の包括的相互作用を通じて、他のモードにおける静かな領域へのアテンションを誘導する。
異なるモダリティとフレームの異なる重要性を考慮するため、モダリティの注意と時間的注意は、情報的モダリティを選択的に強調し、時間的依存を効果的に捉えるように設計されている。
JAADデータセットの大規模な実験により提案したネットワークの有効性が検証され,ベースライン法よりも優れた性能が得られた。
関連論文リスト
- ILNet: Trajectory Prediction with Inverse Learning Attention for Enhancing Intention Capture [4.190790144182306]
人間のドライバーは、車両を取り巻く意図に関する仮定に基づいて、初期運転決定を動的に調整することが認められている。
Inverse Learning (IL) attentionとDynamic Anchor SelectionDAS (DAS) moduleを用いたマルチエージェント軌道予測手法であるILNetを提案する。
実験の結果,ILNet はInterAction と Argoverse の動作予測データセット上で,最先端の性能を達成していることがわかった。
論文 参考訳(メタデータ) (2025-07-09T04:18:01Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Pedestrian Behavior Prediction via Multitask Learning and Categorical
Interaction Modeling [13.936894582450734]
マルチモーダルデータに頼って歩行者の軌跡や行動を同時に予測するマルチタスク学習フレームワークを提案する。
本モデルでは, トラジェクティブと動作予測を最大22%, 6%向上させる。
論文 参考訳(メタデータ) (2020-12-06T15:57:11Z) - Pedestrian Action Anticipation using Contextual Feature Fusion in
Stacked RNNs [19.13270454742958]
交差点における歩行者行動予測問題の解法を提案する。
提案手法では,シーン動的・視覚的特徴の両面から収集した情報を徐々にネットワークに融合する新しいRNNアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-05-13T20:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。