論文の概要: BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations
- arxiv url: http://arxiv.org/abs/2603.06576v1
- Date: Fri, 06 Mar 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.417569
- Title: BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations
- Title(参考訳): BEVLM:LLMから鳥の視点表現への意味的知識の蒸留
- Authors: Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding,
- Abstract要約: 既存の手法は、多視点および多フレーム画像からのトークンを独立してLarge Language Models (LLM) に供給する。
本稿では,空間的に一貫した,意味的に蒸留されたBEV表現をLLMに接続するフレームワークであるBEVLMを提案する。
BEVLMは, クロスビュー運転シーンにおいて, LLMをより効果的に推論し, 精度を46%向上することを示す。
- 参考スコア(独自算出の注目度): 14.805935404975287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into autonomous driving has attracted growing interest for their strong reasoning and semantic understanding abilities, which are essential for handling complex decision-making and long-tail scenarios. However, existing methods typically feed LLMs with tokens from multi-view and multi-frame images independently, leading to redundant computation and limited spatial consistency. This separation in visual processing hinders accurate 3D spatial reasoning and fails to maintain geometric coherence across views. On the other hand, Bird's-Eye View (BEV) representations learned from geometrically annotated tasks (e.g., object detection) provide spatial structure but lack the semantic richness of foundation vision encoders. To bridge this gap, we propose BEVLM, a framework that connects a spatially consistent and semantically distilled BEV representation with LLMs. Through extensive experiments, we show that BEVLM enables LLMs to reason more effectively in cross-view driving scenes, improving accuracy by 46%, by leveraging BEV features as unified inputs. Furthermore, by distilling semantic knowledge from LLMs into BEV representations, BEVLM significantly improves closed-loop end-to-end driving performance by 29% in safety-critical scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の自律運転への統合は、複雑な意思決定とロングテールシナリオを扱う上で不可欠な、強力な推論と意味理解能力への関心が高まっている。
しかし、既存の手法は、通常、マルチビューとマルチフレーム画像のトークンを独立してLLMに供給し、冗長な計算と空間一貫性の制限をもたらす。
この視覚処理の分離は、正確な3次元空間推論を妨げ、ビュー間の幾何学的コヒーレンスを維持するのに失敗する。
一方、幾何学的に注釈付けされたタスク(例えばオブジェクト検出)から学習したBird's-Eye View(BEV)表現は空間構造を提供するが、基礎視覚エンコーダのセマンティックリッチ性は欠如している。
このギャップを埋めるために、空間的に一貫性があり、意味的に蒸留されたBEV表現とLLMを接続するフレームワークであるBEVLMを提案する。
広範にわたる実験により, BEVLMは, BEVの特徴を統合入力として活用することにより, クロスビュー運転シーンにおいてLLMをより効果的に推論し, 精度を46%向上させることができることを示した。
さらに,LLMのセマンティック知識をBEV表現に蒸留することにより,安全上重要なシナリオにおいて,閉ループのエンド・ツー・エンド駆動性能を29%向上する。
関連論文リスト
- Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [8.738991730715039]
VLM-E2Eは、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークである。
注意の意味論に焦点を当てることで、VLM-E2Eは人間のような運転行動と整合し、ダイナミックで複雑な環境をナビゲートするのに重要である。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、ベースラインのエンドツーエンドモデルに対する認識、予測、計画の大幅な改善を実現した。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。