論文の概要: From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning?
- arxiv url: http://arxiv.org/abs/2602.10771v1
- Date: Wed, 11 Feb 2026 12:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.846288
- Title: From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning?
- Title(参考訳): ステアリングからペダリングへ:自律運転型VLMはサイクリスト支援型空間認識と計画に一般化するか?
- Authors: Krishna Kanth Nakka, Vedasri Nakka,
- Abstract要約: 視覚言語モデル(VLM)は、自律運転ベンチマークで強い性能を示した。
既存の評価は主に車両中心であり、自転車中心の視点から知覚と推論を評価するのに失敗している。
本稿では,サイクリストの視点からの知覚,時間的理解,交通ルールから車線への推論を探索するための診断ベンチマークであるCykingVQAを紹介する。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyclists often encounter safety-critical situations in urban traffic, highlighting the need for assistive systems that support safe and informed decision-making. Recently, vision-language models (VLMs) have demonstrated strong performance on autonomous driving benchmarks, suggesting their potential for general traffic understanding and navigation-related reasoning. However, existing evaluations are predominantly vehicle-centric and fail to assess perception and reasoning from a cyclist-centric viewpoint. To address this gap, we introduce CyclingVQA, a diagnostic benchmark designed to probe perception, spatio-temporal understanding, and traffic-rule-to-lane reasoning from a cyclist's perspective. Evaluating 31+ recent VLMs spanning general-purpose, spatially enhanced, and autonomous-driving-specialized models, we find that current models demonstrate encouraging capabilities, while also revealing clear areas for improvement in cyclist-centric perception and reasoning, particularly in interpreting cyclist-specific traffic cues and associating signs with the correct navigational lanes. Notably, several driving-specialized models underperform strong generalist VLMs, indicating limited transfer from vehicle-centric training to cyclist-assistive scenarios. Finally, through systematic error analysis, we identify recurring failure modes to guide the development of more effective cyclist-assistive intelligent systems.
- Abstract(参考訳): サイクリストはしばしば都市交通の安全上重要な状況に遭遇し、安全で情報のある意思決定を支援する補助システムの必要性を強調している。
近年,視覚言語モデル (VLM) は自律走行ベンチマークにおいて高い性能を示し,一般交通理解とナビゲーション関連推論の可能性を示している。
しかし、既存の評価は主に車両中心であり、自転車中心の視点から知覚と推論を評価できない。
このギャップに対処するために、サイクリストの視点からの知覚、時空間的理解、交通ルールから車線への推論を探索するための診断ベンチマークであるCykingVQAを導入する。
一般目的,空間的拡張,自律走行特化モデルにまたがる31以上の最近のVLMを評価すると,現在のモデルでは,サイクリスト中心の知覚と推論の改善,特にサイクリスト固有の交通手段の解釈と適切な航法車線との関連性について,明確な領域を明らかにした。
特に、いくつかの駆動特化モデルでは強力なジェネラリストVLMを実行し、車両中心のトレーニングからサイクリスト支援シナリオへの限定的な移行を示している。
最後に、系統的エラー解析により、より効果的なサイクリスト支援知能システムの開発を導くために、繰り返し発生する故障モードを特定する。
関連論文リスト
- HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic [49.31491001465465]
HetroDは、異種環境で自律走行システムを開発するためのデータセットとベンチマークである。
HetroDは、VRU(vulner- able road users)が支配する現実の異種交通のナビゲーティングにおける重要な課題をターゲットにしている。
論文 参考訳(メタデータ) (2026-02-03T12:12:47Z) - Persona-aware and Explainable Bikeability Assessment: A Vision-Language Model Approach [8.652496663871172]
本稿では,自転車走行性評価のための人称認識型視覚言語モデルフレームワークを提案する。
パノラマ画像に基づくクラウドソーシングシステムを開発し、427人のサイクリストから12,400人のペルソナ条件のアセスメントを収集した。
実験の結果,提案フレームワークは競争力のある自転車の信頼性評価を提供することがわかった。
論文 参考訳(メタデータ) (2026-01-07T02:46:51Z) - Ethics-Aware Safe Reinforcement Learning for Rare-Event Risk Control in Interactive Urban Driving [1.2891210250935148]
倫理に配慮したコスト信号で標準駆動目標を増強する階層型セーフ強化学習フレームワークを提案する。
衝突確率と有害度を組み合わせた複合的倫理的リスクコストを用いて安全なRLエージェントを訓練し、高レベルな運動目標を生成する。
動的でリスクに敏感な優先順位付けエクスペリエンスメカニズムは、まれだがクリティカルでリスクの高いイベントからの学習を増幅する。
論文 参考訳(メタデータ) (2025-08-19T14:24:02Z) - Explaining Autonomous Vehicles with Intention-aware Policy Graphs [0.1398098625978622]
本稿では,都市環境における自動運転車の挙動を遠隔操作で説明するためのモデルに依存しないソリューションを提案する。
Intention-Aware Policy Graphsをベースとした本手法は,車両動作の解釈可能な信頼性説明の抽出を可能にする。
これらの説明は、車両が許容される法的境界内で動作しているかどうかを判断し、自律走行データセットやモデルにおける潜在的な脆弱性を特定するために有効であることを示す。
論文 参考訳(メタデータ) (2025-05-13T09:58:32Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Exploring the Causality of End-to-End Autonomous Driving [57.631400236930375]
本稿では,エンドツーエンド自動運転の因果関係を探究し,分析するための包括的アプローチを提案する。
私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。
論文 参考訳(メタデータ) (2024-07-09T04:56:11Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [50.936478241688114]
非客観的運転経験のモデル化は困難であり,既存手法では運転経験蓄積手順を模擬する機構が欠如している。
本稿では,運転経験蓄積手順をモデル化するFeedBack Loop Network (FBLNet)を提案する。
提案モデルでは,既存の手法に対して強い優位性を示し,2つのドライバー注意ベンチマークデータセットの性能向上を実現している。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Probabilistic End-to-End Vehicle Navigation in Complex Dynamic
Environments with Multimodal Sensor Fusion [16.018962965273495]
全日と全天候のナビゲーションは、自動運転にとって重要な機能である。
本稿では,カメラ,ライダー,レーダからの情報を利用して,触覚能力を備えた確率的運転モデルを提案する。
その結果,提案モデルがベースラインを上回り,目に見えない環境での優れた一般化性能を実現することが示唆された。
論文 参考訳(メタデータ) (2020-05-05T03:48:10Z) - Decoding pedestrian and automated vehicle interactions using immersive
virtual reality and interpretable deep learning [6.982614422666432]
本研究では,自動走行車の存在による影響が期待される都市動態の重要な要素として,歩行者の横断行動について検討する。
歩行者の待ち時間はデータ駆動のCox Proportional Hazards(CPH)モデルを用いて分析される。
その結果,道路上の自動走行車の存在,広い車線幅,道路上の高密度化,観光距離の制限,歩行習慣の欠如が待ち時間の主な要因であることが示唆された。
論文 参考訳(メタデータ) (2020-02-18T01:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。