論文の概要: ACIT: Attention-Guided Cross-Modal Interaction Transformer for Pedestrian Crossing Intention Prediction
- arxiv url: http://arxiv.org/abs/2511.20020v1
- Date: Tue, 25 Nov 2025 07:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.342623
- Title: ACIT: Attention-Guided Cross-Modal Interaction Transformer for Pedestrian Crossing Intention Prediction
- Title(参考訳): ACIT:歩行者交叉意図予測のためのアテンションガイド型クロスモーダル・インタラクション・トランス
- Authors: Yuanzhe Li, Steffen Müller,
- Abstract要約: 本稿では,歩行者横断意図予測のための注意誘導型クロスモーダル・インタラクション・トランス (ACIT) を提案する。
ACITは6つの視覚的モダリティと運動的モダリティを活用し、3つの相互作用ペアにグループ化される。
ACITは最先端の手法より優れており、JAADbehとJAADallのデータセットで70%と89%の精度を達成する。
- 参考スコア(独自算出の注目度): 3.878105750489656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting pedestrian crossing intention is crucial for autonomous vehicles to prevent pedestrian-related collisions. However, effectively extracting and integrating complementary cues from different types of data remains one of the major challenges. This paper proposes an attention-guided cross-modal interaction Transformer (ACIT) for pedestrian crossing intention prediction. ACIT leverages six visual and motion modalities, which are grouped into three interaction pairs: (1) Global semantic map and global optical flow, (2) Local RGB image and local optical flow, and (3) Ego-vehicle speed and pedestrian's bounding box. Within each visual interaction pair, a dual-path attention mechanism enhances salient regions within the primary modality through intra-modal self-attention and facilitates deep interactions with the auxiliary modality (i.e., optical flow) via optical flow-guided attention. Within the motion interaction pair, cross-modal attention is employed to model the cross-modal dynamics, enabling the effective extraction of complementary motion features. Beyond pairwise interactions, a multi-modal feature fusion module further facilitates cross-modal interactions at each time step. Furthermore, a Transformer-based temporal feature aggregation module is introduced to capture sequential dependencies. Experimental results demonstrate that ACIT outperforms state-of-the-art methods, achieving accuracy rates of 70% and 89% on the JAADbeh and JAADall datasets, respectively. Extensive ablation studies are further conducted to investigate the contribution of different modules of ACIT.
- Abstract(参考訳): 歩行者の衝突を防ぐためには、自動運転車にとって歩行者の横断意図の予測が不可欠である。
しかし、異なるタイプのデータから補完的な手がかりを効果的に抽出し統合することは、大きな課題の1つとして残されている。
本稿では,歩行者横断意図予測のためのアテンション誘導型クロスモーダル・インタラクション・トランス (ACIT) を提案する。
ACITは6つの視覚的・運動的モダリティを利用しており、(1)グローバルセマンティックマップとグローバル光フロー、(2)ローカルRGB画像とローカル光フロー、(3)エゴ車速度と歩行者のバウンディングボックスの3つの相互作用ペアにグループ化されている。
各視覚的相互作用対の中では、デュアルパスアテンション機構は、モーダル内自己アテンションを通じて一次モーダル内の健全な領域を強化し、光学的フロー誘導による補助モーダル(すなわち光フロー)との深い相互作用を促進する。
モーションインタラクションペア内では、クロスモーダルな注意がクロスモーダルなダイナミクスをモデル化するために使われ、補完的なモーション特徴を効果的に抽出することができる。
対の相互作用の他に、マルチモーダル特徴融合モジュールは各時間ステップにおける相互モーダル相互作用をさらに促進する。
さらに、シーケンシャルな依存関係をキャプチャするために、Transformerベースの時間的フィーチャーアグリゲーションモジュールが導入された。
実験の結果、ACITは最先端の手法より優れており、JAADbehデータセットとJAADallデータセットの精度は70%と89%であることがわかった。
さらに、ACITの異なるモジュールの寄与を調べるために、広範囲にわたるアブレーション研究を行っている。
関連論文リスト
- Pedestrian Crossing Intention Prediction Using Multimodal Fusion Network [3.878105750489656]
歩行者の横断意図予測は、都市環境における自動運転車(AV)の展開に不可欠である。
本稿では,視覚と運動の両方から7つのモダリティ特徴を生かしたマルチモーダル融合ネットワークを提案する。
JAADデータセットの実験では,提案したネットワークの有効性が検証され,ベースライン法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-11-25T07:18:12Z) - BIDA: A Bi-level Interaction Decision-making Algorithm for Autonomous Vehicles in Dynamic Traffic Scenarios [5.193590097161461]
対話型モンテカルロ木探索(MCTS)と深部強化学習(DRL)を統合した双方向インタラクション意思決定アルゴリズム(BIDA)を設計する。
具体的には、3種類のDRLアルゴリズムを用いて、インタラクティブMCTSのオンライン推論プロセスをガイドする信頼性の高い価値ネットワークとポリシーネットワークを構築する。
実験により, BIDAは対話型推論を向上し, 計算コストを低減させるだけでなく, 最新のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T19:03:40Z) - Wi-CBR: Salient-aware Adaptive WiFi Sensing for Cross-domain Behavior Recognition [8.028748052177146]
クロスドメイン行動認識(Wi-CBR)のための適応型Wi-Fiセンシングを提案する。
具体的には、クロスドメイン行動認識(Wi-CBR)のための適応型適応WiFiセンシングを提案する。
論文 参考訳(メタデータ) (2025-06-13T09:38:57Z) - Unicorn: A Universal and Collaborative Reinforcement Learning Approach Towards Generalizable Network-Wide Traffic Signal Control [13.106167353085878]
適応交通信号制御 (ATSC) は, 混雑の低減, スループットの最大化, 都市部における移動性の向上に不可欠である。
パラメータ共有型マルチエージェント強化学習(MARL)の最近の進歩により、大規模同種ネットワークにおける複雑な動的流れのスケーラブルで適応的な最適化が大幅に向上した。
We present Unicorn, a universal and collaborative MARL framework designed for efficient and adaptable network-wide ATSC。
論文 参考訳(メタデータ) (2025-03-14T15:13:42Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - ProIn: Learning to Predict Trajectory Based on Progressive Interactions for Autonomous Driving [11.887346755144485]
プログレッシブ・インタラクション・ネットワークが提案され、エージェントの特徴が関係する地図に徐々に焦点を合わせることができる。
このネットワークは、グラフ畳み込みを通じて、地図制約の複雑な影響をエージェントの特徴に徐々にエンコードする。
実験は、既存の1段階の相互作用に対する進歩的相互作用の優越性を検証した。
論文 参考訳(メタデータ) (2024-03-25T02:38:34Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。