論文の概要: Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning
- arxiv url: http://arxiv.org/abs/2602.07680v1
- Date: Sat, 07 Feb 2026 20:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.758053
- Title: Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning
- Title(参考訳): ビジョンと言語:新しい表現と人工知能による環境安全評価と自律走行車計画
- Authors: Ross Greer, Maitrayee Keskar, Angel Martinez-Sanchez, Parthib Roy, Shashank Shriram, Mohan Trivedi,
- Abstract要約: 視覚言語モデル(VLM)は、視覚観察を自然言語の概念と整合させる強力な表現学習システムとして登場した。
本稿では、視覚言語表現が、認識、予測、計画パイプラインに統合された場合、シーンの安全性評価と意思決定をどのようにサポートするかを検討する。
- 参考スコア(独自算出の注目度): 2.1379801460200416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently emerged as powerful representation learning systems that align visual observations with natural language concepts, offering new opportunities for semantic reasoning in safety-critical autonomous driving. This paper investigates how vision-language representations support driving scene safety assessment and decision-making when integrated into perception, prediction, and planning pipelines. We study three complementary system-level use cases. First, we introduce a lightweight, category-agnostic hazard screening approach leveraging CLIP-based image-text similarity to produce a low-latency semantic hazard signal. This enables robust detection of diverse and out-of-distribution road hazards without explicit object detection or visual question answering. Second, we examine the integration of scene-level vision-language embeddings into a transformer-based trajectory planning framework using the Waymo Open Dataset. Our results show that naively conditioning planners on global embeddings does not improve trajectory accuracy, highlighting the importance of representation-task alignment and motivating the development of task-informed extraction methods for safety-critical planning. Third, we investigate natural language as an explicit behavioral constraint on motion planning using the doScenes dataset. In this setting, passenger-style instructions grounded in visual scene elements suppress rare but severe planning failures and improve safety-aligned behavior in ambiguous scenarios. Taken together, these findings demonstrate that vision-language representations hold significant promise for autonomous driving safety when used to express semantic risk, intent, and behavioral constraints. Realizing this potential is fundamentally an engineering problem requiring careful system design and structured grounding rather than direct feature injection.
- Abstract(参考訳): 視覚言語モデル(VLM)は、近年、視覚的な観察と自然言語の概念を整合させる強力な表現学習システムとして登場し、安全クリティカルな自律運転における意味論的推論の新しい機会を提供している。
本稿では、視覚言語表現が、認識、予測、計画パイプラインに統合された場合、シーンの安全性評価と意思決定をどのようにサポートするかを検討する。
システムレベルを補完する3つのユースケースについて検討した。
まず、CLIPに基づく画像テキスト類似性を利用して、低遅延なセマンティックハザード信号を生成する軽量でカテゴリに依存しないハザードスクリーニング手法を提案する。
これにより、明示的なオブジェクト検出や視覚的質問応答を伴わずに、多様な分布外の道路障害を堅牢に検出することができる。
第2に、Waymo Open Datasetを用いたトランスフォーマーベースの軌道計画フレームワークへのシーンレベルの視覚言語埋め込みの統合について検討する。
これらの結果から,グローバルな埋め込みにおけるナビゲーションプランナーは軌道精度を向上せず,表現タスクアライメントの重要性を強調し,安全クリティカルプランニングのためのタスクインフォームド抽出手法の開発を動機付けていることがわかった。
第3に、doScenesデータセットを用いて、動作計画の明示的な行動制約として自然言語について検討する。
この設定では、視覚的シーン要素に接地した乗客スタイルの指示は、稀だが厳しい計画上の失敗を抑制し、曖昧なシナリオにおける安全に整合した行動を改善する。
これらの結果から,視覚言語表現は,意味的リスクや意図,行動的制約を表現する上で,自律運転の安全性に有意な可能性を示唆している。
この可能性を実現することは、本質的には、直接的な機能注入よりも、注意深いシステム設計と構造的な接地を必要とする工学的な問題である。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving [10.685706490545956]
本稿では,マルチセンサ融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)を付加したVLAアーキテクチャを統合したパーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。
このフレームワークは、低レベルの知覚処理と高レベルの文脈推論を統合して、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
論文 参考訳(メタデータ) (2025-07-31T13:30:47Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation [7.362380225654904]
INSIGHTは、危険検出とエッジケース評価を強化するために設計された階層型視覚言語モデル(VLM)フレームワークである。
本手法は,マルチモーダルデータ融合を用いて意味表現と視覚表現を統合し,運転シナリオの正確な解釈を可能にする。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の正確性と正確性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-02-01T01:43:53Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - The Integration of Prediction and Planning in Deep Learning Automated Driving Systems: A Review [43.30610493968783]
我々は、最先端のディープラーニングベースの計画システムについてレビューし、どのように予測を統合するかに焦点を当てる。
異なる統合原則の意味、強み、限界について論じる。
論文 参考訳(メタデータ) (2023-08-10T17:53:03Z) - USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving [7.355977594790584]
自律運転における3次元物体検出器の安全性指向性能について考察する。
本稿では,単純だが重要な局所化要件を特徴付ける空間的制約 (USC) について述べる。
既存のモデルに対する安全性指向の微調整を可能にするために,定量的な測定値を共通損失関数に組み込む。
論文 参考訳(メタデータ) (2022-09-21T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。