論文の概要: PEDESTRIANQA: A Benchmark for Vision-Language Models on Pedestrian Intention and Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2605.24562v1
- Date: Sat, 23 May 2026 12:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.246446
- Title: PEDESTRIANQA: A Benchmark for Vision-Language Models on Pedestrian Intention and Trajectory Prediction
- Title(参考訳): PEDESTRIANQA: 歩行者の意図と軌道予測に関する視覚言語モデルのベンチマーク
- Authors: Naman Mishra, Shankar Gangisetty, C. V. Jawahar,
- Abstract要約: 歩行者の意図と軌道予測を定式化した大規模ビデオベースデータセットであるPedestrianQAを紹介する。
PedestrianQAは、リッチな注釈付き歩行者シーケンスを自然言語で表現し、VLMが視覚力学、文脈的手がかり、交通機関間の相互作用から学べるようにしている。
実証評価の結果,PedestrianQAの精巧なVLMは意図分類,軌道予測精度,説明的合理性の品質を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 17.259627750358046
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pedestrian intention and trajectory prediction are critical for the safe deployment of autonomous driving systems, directly influencing navigation decisions in complex traffic environments. Recent advances in large vision-language models offer a powerful new paradigm for these tasks by combining high-capacity visual understanding with flexible natural language reasoning. In this work, we introduce PedestrianQA, a large-scale video-based dataset that formulates pedestrian intention and trajectory prediction as question-answering tasks augmented with structured rationales. PedestrianQA expresses richly annotated pedestrian sequences, in natural language, enabling VLMs to learn from visual dynamics, contextual cues, and interactions among traffic agents while generating concise explanations of their predictions without needing specialized architectures tailored for each task. Empirical evaluations across PIE, JAAD, TITAN, and IDD-PeD show that finetuning state-of-the-art VLMs on PedestrianQA significantly improves intention classification, trajectory forecasting accuracy, and the quality of explanatory rationales, demonstrating the strong potential of VLMs as a unified and explainable framework for safety-critical pedestrian behavior modeling.
- Abstract(参考訳): 歩行者の意図と軌道予測は、複雑な交通環境におけるナビゲーション決定に直接影響を及ぼす自律運転システムの安全な展開に不可欠である。
大規模視覚言語モデルの最近の進歩は、高容量の視覚的理解と柔軟な自然言語推論を組み合わせることで、これらのタスクに強力な新しいパラダイムを提供する。
本研究では、歩行者の意図と軌跡予測を、構造化された合理的性で強化された質問応答タスクとして定式化する大規模ビデオベースデータセットであるPedestrianQAを紹介する。
PedestrianQAは、リッチな注釈付き歩行者シーケンスを自然言語で表現し、VLMが視覚力学、文脈的手がかり、交通機関間の相互作用から学習し、各タスクに適したアーキテクチャを必要とせずに予測の簡潔な説明を生成する。
PIE, JAAD, TITAN, IDD-PeDにおける実証評価の結果, PedestrianQAにおける最先端VLMの微調整は意図的分類, 軌道予測精度, 説明的合理性の品質を著しく改善し, VLMの強い可能性を示す。
関連論文リスト
- Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - VLMs Guided Interpretable Decision Making for Autonomous Driving [39.29020915361483]
我々は、高度な意思決定タスクにおいて、最先端のオープンソースビジョン言語モデル(VLM)を評価する。
本稿では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせるアプローチを提案する。
提案手法は,VLMを信頼性・解釈可能なADシステムに統合する上で有望な方向を提供することにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T19:57:51Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - Pedestrian Intention Prediction via Vision-Language Foundation Models [10.351342371371675]
本研究では,歩行者の横断意図を予測するための視覚言語基礎モデル(VLFM)の可能性について検討する。
この方法論は、視覚的フレーム、物理的キュー観察、エゴ・車両力学などの文脈情報を体系的に洗練されたプロンプトに組み込む。
結果は、車両の速度、時間の経過とともに変化し、時間意識的なプロンプトが予測精度を19.8%まで著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-05T19:39:00Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [5.456780031044544]
本稿では,大規模視覚言語基礎モデルから効率的な視覚ネットワークへ知識を伝達する知識蒸留法を提案する。
歩行者行動予測やシーン理解タスクに適用し,より多様で包括的なセマンティック属性を生成する上で,有望な結果を達成する。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - SEPT: Towards Efficient Scene Representation Learning for Motion
Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。
実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-09-26T21:56:03Z) - Distribution-aware Goal Prediction and Conformant Model-based Planning
for Safe Autonomous Driving [16.654299927694716]
本研究では,学習から学習までのタスクを,障害物認識と接地,分布認識の目標予測,モデルベース計画として再構築する。
CARLAシミュレータでは,CARNOVELベンチマークの最先端結果を報告する。
論文 参考訳(メタデータ) (2022-12-16T21:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。