Fugu-MT 論文翻訳(概要): Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding

論文の概要: Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding

arxiv url: http://arxiv.org/abs/2501.05566v1
Date: Thu, 09 Jan 2025 20:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.075063
Title: Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding
Title（参考訳）: 自律走行のための視覚言語モデル:CLIPに基づく動的シーン理解
Authors: Mohammed Elhenawy, Huthaifa I. Ashqar, Andry Rakotonirainy, Taqwa I. Alhadidi, Ahmed Jaber, Mohammad Abu Tami,
Abstract要約: 本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
参考スコア（独自算出の注目度）: 5.578400344096341
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene understanding is essential for enhancing driver safety, generating human-centric explanations for Automated Vehicle (AV) decisions, and leveraging Artificial Intelligence (AI) for retrospective driving video analysis. This study developed a dynamic scene retrieval system using Contrastive Language-Image Pretraining (CLIP) models, which can be optimized for real-time deployment on edge devices. The proposed system outperforms state-of-the-art in-context learning methods, including the zero-shot capabilities of GPT-4o, particularly in complex scenarios. By conducting frame-level analysis on the Honda Scenes Dataset, which contains a collection of about 80 hours of annotated driving videos capturing diverse real-world road and weather conditions, our study highlights the robustness of CLIP models in learning visual concepts from natural language supervision. Results also showed that fine-tuning the CLIP models, such as ViT-L/14 and ViT-B/32, significantly improved scene classification, achieving a top F1 score of 91.1%. These results demonstrate the ability of the system to deliver rapid and precise scene recognition, which can be used to meet the critical requirements of Advanced Driver Assistance Systems (ADAS). This study shows the potential of CLIP models to provide scalable and efficient frameworks for dynamic scene understanding and classification. Furthermore, this work lays the groundwork for advanced autonomous vehicle technologies by fostering a deeper understanding of driver behavior, road conditions, and safety-critical scenarios, marking a significant step toward smarter, safer, and more context-aware autonomous driving systems.
Abstract（参考訳）: シーン理解は、ドライバーの安全性を高め、自動走行車(AV)決定のための人間中心の説明を生成し、リフレクション駆動ビデオ分析に人工知能(AI)を活用するために不可欠である。本研究では, エッジデバイス上でのリアルタイム展開に最適化可能な, Contrastive Language-Image Pretraining (CLIP) モデルを用いた動的シーン検索システムを開発した。提案システムは,特に複雑なシナリオにおいて,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。本研究は,多種多様な現実の道路・気象条件を収録した約80時間のアノテートドライビングビデオを含むHonda Scenes Datasetのフレームレベル解析により,自然言語による視覚概念の学習におけるCLIPモデルの堅牢性を強調した。また、VT-L/14やVT-B/32といったCLIPモデルの微調整によりシーン分類が大幅に改善され、トップF1スコアは91.1%に達した。これらの結果は、高度運転支援システム(ADAS)の臨界要件を満たすために使用できる、迅速かつ正確なシーン認識を実現するシステムの能力を示すものである。本研究は,動的シーン理解と分類のためのスケーラブルで効率的なフレームワークを提供するCLIPモデルの可能性を示す。さらに、この研究は、運転行動、道路条件、安全クリティカルなシナリオをより深く理解し、より賢く、より安全で、よりコンテキストに配慮した自動運転システムに向けた重要なステップを示すことによって、先進的な自動運転車技術の基盤となる。

関連論文リスト

RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文参考訳（メタデータ） (2025-03-18T03:25:57Z)
Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles [5.312025021315423]
本稿では、ゼロショット・インコンテキスト学習環境におけるシーン理解のための4つのマルチモーダル大規模言語モデル(MLLM)の能力を評価する。実験の結果,最大モデルであるGPT-4oはシーン理解において他のモデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-18T00:43:12Z)
CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。 CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-21T00:42:40Z)
A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-01-20T04:00:02Z)
Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文参考訳（メタデータ） (2025-01-15T15:20:46Z)
ScVLM: a Vision-Language Model for Driving Safety Critical Event Understanding [6.461440777667878]
教師付き学習とコントラスト学習を組み合わせたハイブリッド手法であるScVLMを提案する。提案手法は,第2戦略ハイウェイ研究プログラム自然言語駆動学習データセットから8,600以上のSCEを用いて訓練し,評価する。
論文参考訳（メタデータ） (2024-10-01T18:10:23Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。 LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
A Cognitive-Based Trajectory Prediction Approach for Autonomous Driving [21.130543517747995]
本稿では,教師による知識蒸留の枠組みを取り入れたHuman-Like Trajectory Prediction (H)モデルを提案する。教師」モデルは人間の脳、特に後頭葉と側頭葉の機能の視覚的処理を模倣する。学生」モデルはリアルタイムのインタラクションと意思決定に焦点を合わせ、正確な予測のために重要な知覚的手がかりを捉えます。
論文参考訳（メタデータ） (2024-02-29T15:22:26Z)
VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文参考訳（メタデータ） (2024-01-10T23:00:40Z)
SEPT: Towards Efficient Scene Representation Learning for Motion Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2023-09-26T21:56:03Z)
Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos [29.529768377746194]
本稿では,CLIPに基づく運転行動認識手法を提案する。以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
論文参考訳（メタデータ） (2023-06-16T20:02:51Z)
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。 BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-17T18:18:27Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
Differentiable Control Barrier Functions for Vision-based End-to-End Autonomous Driving [100.57791628642624]
本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。我々は、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。
論文参考訳（メタデータ） (2022-03-04T16:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。