論文の概要: V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.00156v1
- Date: Wed, 30 Apr 2025 20:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.166456
- Title: V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving
- Title(参考訳): V3LMA: 自律運転のためのビジュアル3D強化言語モデル
- Authors: Jannik Lübberstedt, Esteban Rivera, Nico Uhlemann, Markus Lienkamp,
- Abstract要約: 本稿では,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を向上させる新しいアプローチであるV3LMAを紹介する。
V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。
本稿では,複雑な交通シナリオにおける状況認識と意思決定を改善し,LingoQAベンチマークのスコア0.56を達成している。
- 参考スコア(独自算出の注目度): 2.3302708486956454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) have shown strong capabilities in understanding and analyzing visual scenes across various domains. However, in the context of autonomous driving, their limited comprehension of 3D environments restricts their effectiveness in achieving a complete and safe understanding of dynamic surroundings. To address this, we introduce V3LMA, a novel approach that enhances 3D scene understanding by integrating Large Language Models (LLMs) with LVLMs. V3LMA leverages textual descriptions generated from object detections and video inputs, significantly boosting performance without requiring fine-tuning. Through a dedicated preprocessing pipeline that extracts 3D object data, our method improves situational awareness and decision-making in complex traffic scenarios, achieving a score of 0.56 on the LingoQA benchmark. We further explore different fusion strategies and token combinations with the goal of advancing the interpretation of traffic scenes, ultimately enabling safer autonomous driving systems.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、様々な領域にわたる視覚シーンの理解と分析に強い能力を示している。
しかし、自律運転の文脈では、3D環境の限定的な理解は、動的環境の完全かつ安全な理解を達成する上での有効性を制限する。
これを解決するために,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を強化する新しいアプローチであるV3LMAを紹介する。
V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。
3Dオブジェクトデータを抽出する専用前処理パイプラインを通じて、複雑な交通シナリオにおける状況認識と意思決定を改善し、LingoQAベンチマークのスコア0.56を達成する。
さらに、交通シーンの解釈を推進し、究極的にはより安全な自動運転システムを実現することを目的として、異なる融合戦略とトークンの組み合わせについて検討する。
関連論文リスト
- Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-30T16:35:00Z) - MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion [39.303609347179695]
本研究では,従来の画像理解を一般化した3Dシーン理解フレームワークに拡張した視覚言語モデルフレームワークMMDriveを提案する。
MMDriveには、占有マップ、LiDAR点雲、テキストシーン記述を含む3つの補完的なモードが組み込まれている。
MMDriveは、既存の自動運転用ビジョン言語モデルよりも大きなパフォーマンス向上を実現しており、BLEU-4スコアは54.56、METEORスコアは41.78、精度スコアは62.7%である。
論文 参考訳(メタデータ) (2025-12-15T10:37:59Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文 参考訳(メタデータ) (2025-05-13T16:36:51Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [5.6565850326929485]
本稿では、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークを提案する。
本手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,意味的管理を行う。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [2.0122032639916485]
我々は、セマンティックラベルの効果的な知識蒸留を、より小さなビジョンネットワークに解析する。
これは、複雑なシーンのセマンティックな表現として、計画と制御のための下流の意思決定に使用することができる。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussian [9.316712964093506]
本稿では,自律運転におけるオープンな3次元シーンクエリのための新しい手法を提案する。
そこで我々は,Large Language Models (LLMs) を用いて,文脈的に正のフレーズを生成するとともに,肯定的な単語によるセグメンテーションとシーン解釈を支援することを提案する。
論文 参考訳(メタデータ) (2024-08-07T02:54:43Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。