論文の概要: Pedestrian Intention Prediction via Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2507.04141v1
- Date: Sat, 05 Jul 2025 19:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.038211
- Title: Pedestrian Intention Prediction via Vision-Language Foundation Models
- Title(参考訳): 視覚言語基礎モデルによる歩行者の意図予測
- Authors: Mohsen Azarmi, Mahdi Rezaei, He Wang,
- Abstract要約: 本研究では,歩行者の横断意図を予測するための視覚言語基礎モデル(VLFM)の可能性について検討する。
この方法論は、視覚的フレーム、物理的キュー観察、エゴ・車両力学などの文脈情報を体系的に洗練されたプロンプトに組み込む。
結果は、車両の速度、時間の経過とともに変化し、時間意識的なプロンプトが予測精度を19.8%まで著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 10.351342371371675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prediction of pedestrian crossing intention is a critical function in autonomous vehicles. Conventional vision-based methods of crossing intention prediction often struggle with generalizability, context understanding, and causal reasoning. This study explores the potential of vision-language foundation models (VLFMs) for predicting pedestrian crossing intentions by integrating multimodal data through hierarchical prompt templates. The methodology incorporates contextual information, including visual frames, physical cues observations, and ego-vehicle dynamics, into systematically refined prompts to guide VLFMs effectively in intention prediction. Experiments were conducted on three common datasets-JAAD, PIE, and FU-PIP. Results demonstrate that incorporating vehicle speed, its variations over time, and time-conscious prompts significantly enhances the prediction accuracy up to 19.8%. Additionally, optimised prompts generated via an automatic prompt engineering framework yielded 12.5% further accuracy gains. These findings highlight the superior performance of VLFMs compared to conventional vision-based models, offering enhanced generalisation and contextual understanding for autonomous driving applications.
- Abstract(参考訳): 歩行者横断意図の予測は自動運転車にとって重要な機能である。
従来の視覚に基づく意図的予測の手法は、一般化可能性、文脈理解、因果推論に苦慮することが多い。
本研究では、階層的なプロンプトテンプレートを通して多モードデータを統合することにより、歩行者横断意図を予測するための視覚言語基盤モデル(VLFM)の可能性を検討する。
この方法論は、視覚的フレーム、物理的キュー観察、エゴ車両力学などの文脈情報を体系的に洗練されたプロンプトに組み込んで、VLFMを意図的な予測に効果的に導く。
JAAD, PIE, FU-PIPの3つの共通データセットを用いて実験を行った。
結果は、車両の速度、時間の経過とともに変化し、時間意識的なプロンプトが予測精度を19.8%まで著しく向上させることを示した。
さらに、自動プロンプトエンジニアリングフレームワークによって生成された最適化プロンプトにより、12.5%の精度が向上した。
これらの結果は、従来のビジョンベースモデルと比較して、VLFMの優れた性能を強調し、自律運転アプリケーションに対する一般化とコンテキスト理解の強化を提供する。
関連論文リスト
- Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - FollowGen: A Scaled Noise Conditional Diffusion Model for Car-Following Trajectory Prediction [9.2729178775419]
本研究では,自動車追従軌道予測のためのスケールドノイズ条件拡散モデルを提案する。
車両間の詳細な相互作用と自動車追従ダイナミクスを生成フレームワークに統合し、予測された軌跡の精度と妥当性を向上させる。
種々の実世界の運転シナリオに関する実験結果は,提案手法の最先端性能と堅牢性を示すものである。
論文 参考訳(メタデータ) (2024-11-23T23:13:45Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models [8.253092044813595]
本稿では,知識グラフと大規模言語モデルの推論能力を統合した,道路利用者の行動予測システムを提案する。
1)歩行者の横断行動の予測,2)車線変更操作の予測。
論文 参考訳(メタデータ) (2024-05-01T11:06:31Z) - Towards Generalizable and Interpretable Motion Prediction: A Deep
Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。
このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。
動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文 参考訳(メタデータ) (2024-03-10T04:16:04Z) - The Integration of Prediction and Planning in Deep Learning Automated Driving Systems: A Review [43.30610493968783]
我々は、最先端のディープラーニングベースの計画システムについてレビューし、どのように予測を統合するかに焦点を当てる。
異なる統合原則の意味、強み、限界について論じる。
論文 参考訳(メタデータ) (2023-08-10T17:53:03Z) - AdvDO: Realistic Adversarial Attacks for Trajectory Prediction [87.96767885419423]
軌道予測は、自動運転車が正しく安全な運転行動を計画するために不可欠である。
我々は,現実的な対向軌道を生成するために,最適化に基づく対向攻撃フレームワークを考案する。
私たちの攻撃は、AVが道路を走り去るか、シミュレーション中に他の車両に衝突する可能性がある。
論文 参考訳(メタデータ) (2022-09-19T03:34:59Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Causal-based Time Series Domain Generalization for Vehicle Intention
Prediction [19.944268567657307]
交通参加者の行動の正確な予測は、自動運転車にとって必須の能力である。
本稿では,車両意図予測タスクにおける領域一般化問題に対処することを目的とする。
提案手法は、他の最先端領域の一般化や振る舞い予測手法と比較して、予測精度を一貫して改善する。
論文 参考訳(メタデータ) (2021-12-03T18:58:07Z) - Attentional-GCNN: Adaptive Pedestrian Trajectory Prediction towards
Generic Autonomous Vehicle Use Cases [10.41902340952981]
本稿では,グラフのエッジに注目重みを割り当てることで,歩行者間の暗黙的相互作用に関する情報を集約する,GCNNに基づく新しいアプローチであるAttentional-GCNNを提案する。
提案手法は,10%平均変位誤差 (ADE) と12%最終変位誤差 (FDE) を高速な推論速度で向上することを示す。
論文 参考訳(メタデータ) (2020-11-23T03:13:26Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。