論文の概要: Multi-Context Fusion Transformer for Pedestrian Crossing Intention Prediction in Urban Environments
- arxiv url: http://arxiv.org/abs/2511.20011v1
- Date: Tue, 25 Nov 2025 07:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.335064
- Title: Multi-Context Fusion Transformer for Pedestrian Crossing Intention Prediction in Urban Environments
- Title(参考訳): 都市環境における歩行者交叉意図予測のためのマルチコンテキスト核融合変圧器
- Authors: Yuanzhe Li, Hang Zhong, Steffen Müller,
- Abstract要約: 歩行者が歩行者の安全を改善し、交通事故を減らすためには、歩行者の横断意図予測が不可欠である。
本研究では、4つの鍵次元にまたがる多様な数値的属性を利用するマルチコンテキスト融合変換器を提案する。
JAADbeh, JAADall, PIEデータセットの精度は, それぞれ73%, 93%, 90%であった。
- 参考スコア(独自算出の注目度): 7.275068715034909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian crossing intention prediction is essential for autonomous vehicles to improve pedestrian safety and reduce traffic accidents. However, accurate pedestrian intention prediction in urban environments remains challenging due to the multitude of factors affecting pedestrian behavior. In this paper, we propose a multi-context fusion Transformer (MFT) that leverages diverse numerical contextual attributes across four key dimensions, encompassing pedestrian behavior context, environmental context, pedestrian localization context and vehicle motion context, to enable accurate pedestrian intention prediction. MFT employs a progressive fusion strategy, where mutual intra-context attention enables reciprocal interactions within each context, thereby facilitating feature sequence fusion and yielding a context token as a context-specific representation. This is followed by mutual cross-context attention, which integrates features across contexts with a global CLS token serving as a compact multi-context representation. Finally, guided intra-context attention refines context tokens within each context through directed interactions, while guided cross-context attention strengthens the global CLS token to promote multi-context fusion via guided information propagation, yielding deeper and more efficient integration. Experimental results validate the superiority of MFT over state-of-the-art methods, achieving accuracy rates of 73%, 93%, and 90% on the JAADbeh, JAADall, and PIE datasets, respectively. Extensive ablation studies are further conducted to investigate the effectiveness of the network architecture and contribution of different input context. Our code is open-source: https://github.com/ZhongHang0307/Multi-Context-Fusion-Transformer.
- Abstract(参考訳): 歩行者が歩行者の安全を改善し、交通事故を減らすためには、歩行者の横断意図予測が不可欠である。
しかし, 歩行者行動に影響を与える要因の多さから, 都市環境における正確な歩行者意図予測は依然として困難である。
本稿では,歩行者の行動状況,環境状況,歩行者の局所化状況,車両の移動状況などを含む4つの重要次元にまたがる多様な数値的属性を活用するマルチコンテキスト融合変換器を提案する。
MFTはプログレッシブ・フュージョン・ストラテジーを採用しており、各コンテキスト間の相互の相互作用を可能にし、特徴系列の融合を容易にし、コンテキスト固有の表現としてコンテキストトークンを生成する。
この後、相互コンテキスト間の注目が続き、コンテクストにまたがる機能と、コンパクトなマルチコンテキスト表現として機能するグローバルCRSトークンを統合する。
最後に、ガイド付きコンテキスト内アテンションは、双方向のインタラクションを通じてコンテキストトークンを洗練させ、ガイド付きクロスコンテキストアテンションはグローバルなCRSトークンを強化し、ガイド付き情報伝搬を介してマルチコンテキスト融合を促進し、より深く、より効率的な統合をもたらす。
JAADbeh, JAADall, PIEデータセットの精度は, それぞれ73%, 93%, 90%であった。
さらに、ネットワークアーキテクチャの有効性と異なる入力コンテキストの寄与について、広範囲にわたるアブレーション研究を行った。
私たちのコードはオープンソースです。 https://github.com/ZhongHang0307/Multi-Context-Fusion-Transformer。
関連論文リスト
- Pedestrian Crossing Intention Prediction Using Multimodal Fusion Network [3.878105750489656]
歩行者の横断意図予測は、都市環境における自動運転車(AV)の展開に不可欠である。
本稿では,視覚と運動の両方から7つのモダリティ特徴を生かしたマルチモーダル融合ネットワークを提案する。
JAADデータセットの実験では,提案したネットワークの有効性が検証され,ベースライン法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-11-25T07:18:12Z) - GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction [19.049345629101882]
HDマップに依存したモデルは、コストのかかるデータ取得、更新の遅れ、破損した入力に対する脆弱性に悩まされる。
本稿では,グローバルなコンテキスト認識型ハイブリッドアテンションを備えた,プラグイン・アンド・プレイ型エンコーダ・デコーダアーキテクチャであるGContextFormerを提案する。
論文 参考訳(メタデータ) (2025-11-24T08:28:42Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning [17.29563451509921]
SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。
本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
論文 参考訳(メタデータ) (2024-12-20T05:20:10Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Local and Global Contextual Features Fusion for Pedestrian Intention
Prediction [2.203209457340481]
我々は歩行者と交通状況の両方の視覚的特徴を分析し分析する。
グローバルな文脈を理解するために、位置、動き、環境情報を利用する。
これらのマルチモダリティ機能は、効果的な意図学習のためにインテリジェントに融合されている。
論文 参考訳(メタデータ) (2023-05-01T22:37:31Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - MCENET: Multi-Context Encoder Network for Homogeneous Agent Trajectory
Prediction in Mixed Traffic [35.22312783822563]
都市混合交通圏における軌道予測は多くのインテリジェント交通システムにとって重要である。
本稿では,過去と未来の両方のシーンコンテキストを符号化して学習するマルチコンテキストネットワーク(MCENET)を提案する。
推定時間において,対象エージェントの過去の状況と動作情報と潜伏変数のサンプリングを組み合わせ,複数の現実的軌跡を予測する。
論文 参考訳(メタデータ) (2020-02-14T11:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。