論文の概要: V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.00156v1
- Date: Wed, 30 Apr 2025 20:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.166456
- Title: V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
- Title(参考訳): V3LMA: 自律運転のためのビジュアル3D強化言語モデル
- Authors: Jannik Lübberstedt, Esteban Rivera, Nico Uhlemann, Markus Lienkamp,
- Abstract要約: 本稿では,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を向上させる新しいアプローチであるV3LMAを紹介する。
V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。
本稿では,複雑な交通シナリオにおける状況認識と意思決定を改善し,LingoQAベンチマークのスコア0.56を達成している。
- 参考スコア(独自算出の注目度): 2.3302708486956454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) have shown strong capabilities in understanding and analyzing visual scenes across various domains. However, in the context of autonomous driving, their limited comprehension of 3D environments restricts their effectiveness in achieving a complete and safe understanding of dynamic surroundings. To address this, we introduce V3LMA, a novel approach that enhances 3D scene understanding by integrating Large Language Models (LLMs) with LVLMs. V3LMA leverages textual descriptions generated from object detections and video inputs, significantly boosting performance without requiring fine-tuning. Through a dedicated preprocessing pipeline that extracts 3D object data, our method improves situational awareness and decision-making in complex traffic scenarios, achieving a score of 0.56 on the LingoQA benchmark. We further explore different fusion strategies and token combinations with the goal of advancing the interpretation of traffic scenes, ultimately enabling safer autonomous driving systems.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、様々な領域にわたる視覚シーンの理解と分析に強い能力を示している。
しかし、自律運転の文脈では、3D環境の限定的な理解は、動的環境の完全かつ安全な理解を達成する上での有効性を制限する。
これを解決するために,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を強化する新しいアプローチであるV3LMAを紹介する。
V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。
3Dオブジェクトデータを抽出する専用前処理パイプラインを通じて、複雑な交通シナリオにおける状況認識と意思決定を改善し、LingoQAベンチマークのスコア0.56を達成する。
さらに、交通シーンの解釈を推進し、究極的にはより安全な自動運転システムを実現することを目的として、異なる融合戦略とトークンの組み合わせについて検討する。
関連論文リスト
- OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [5.6565850326929485]
本稿では、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークを提案する。
本手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,意味的管理を行う。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [2.0122032639916485]
我々は、セマンティックラベルの効果的な知識蒸留を、より小さなビジョンネットワークに解析する。
これは、複雑なシーンのセマンティックな表現として、計画と制御のための下流の意思決定に使用することができる。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussian [9.316712964093506]
本稿では,自律運転におけるオープンな3次元シーンクエリのための新しい手法を提案する。
そこで我々は,Large Language Models (LLMs) を用いて,文脈的に正のフレーズを生成するとともに,肯定的な単語によるセグメンテーションとシーン解釈を支援することを提案する。
論文 参考訳(メタデータ) (2024-08-07T02:54:43Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。