論文の概要: Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2501.06680v2
- Date: Wed, 30 Jul 2025 17:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:50.854874
- Title: Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving
- Title(参考訳): 自律運転における視覚言語モデルの歩行者行動・場面理解への応用
- Authors: Haoxiang Gao, Li Zhang, Yu Zhao, Zhou Yang, Jinghan Cao,
- Abstract要約: 本稿では,大規模視覚言語基礎モデルから効率的な視覚ネットワークへ知識を伝達する知識蒸留法を提案する。
歩行者行動予測やシーン理解タスクに適用し,より多様で包括的なセマンティック属性を生成する上で,有望な結果を達成する。
- 参考スコア(独自算出の注目度): 5.456780031044544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have become a promising approach to enhancing perception and decision-making in autonomous driving. The gap remains in applying VLMs to understand complex scenarios interacting with pedestrians and efficient vehicle deployment. In this paper, we propose a knowledge distillation method that transfers knowledge from large-scale vision-language foundation models to efficient vision networks, and we apply it to pedestrian behavior prediction and scene understanding tasks, achieving promising results in generating more diverse and comprehensive semantic attributes. We also utilize multiple pre-trained models and ensemble techniques to boost the model's performance. We further examined the effectiveness of the model after knowledge distillation; the results show significant metric improvements in open-vocabulary perception and trajectory prediction tasks, which can potentially enhance the end-to-end performance of autonomous driving.
- Abstract(参考訳): 視覚言語モデル(VLM)は、自律運転における知覚と意思決定を強化するための有望なアプローチとなっている。
このギャップは、歩行者と対話する複雑なシナリオと効率的な車両配備を理解するためにVLMを適用する際にも残る。
本稿では,大規模視覚言語基礎モデルから効率的な視覚ネットワークへ知識を伝達する知識蒸留手法を提案する。
また,複数の事前学習モデルとアンサンブル技術を用いて,モデルの性能を向上させる。
さらに, 知識蒸留後のモデルの有効性について検討し, 自動走行のエンド・ツー・エンド性能を高めるために, オープン・ボキャブラリ認識と軌跡予測タスクにおいて, 有意な改善が見られた。
関連論文リスト
- V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving [2.3302708486956454]
本稿では,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を向上させる新しいアプローチであるV3LMAを紹介する。
V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。
本稿では,複雑な交通シナリオにおける状況認識と意思決定を改善し,LingoQAベンチマークのスコア0.56を達成している。
論文 参考訳(メタデータ) (2025-04-30T20:00:37Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - Scenario Understanding of Traffic Scenes Through Large Visual Language Models [2.3302708486956454]
大規模ビジュアル言語モデル(LVLM)は、画像解析とコンテキストクエリによる分類を自動化することで、魅力的なソリューションを提供する。
本研究では,LVLMが社内データセットとBDD100Kの両方で都市交通シーンを理解し,分類する能力を評価する。
我々は、最先端モデルを統合するスケーラブルなキャプションパイプラインを提案し、新しいデータセットに柔軟なデプロイを可能にする。
論文 参考訳(メタデータ) (2025-01-28T18:23:12Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。