論文の概要: SparseOccVLA: Bridging Occupancy and Vision-Language Models via Sparse Queries for Unified 4D Scene Understanding and Planning
- arxiv url: http://arxiv.org/abs/2601.06474v1
- Date: Sat, 10 Jan 2026 07:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.836466
- Title: SparseOccVLA: Bridging Occupancy and Vision-Language Models via Sparse Queries for Unified 4D Scene Understanding and Planning
- Title(参考訳): SparseOccVLA: 統一された4次元シーン理解と計画のためのスパースクエリによるブリッジング作業とビジョンランゲージモデル
- Authors: Chenxu Dang, Jie Wang, Guang Li, Zhiwen Hou, Zihan You, Hangjun Ye, Jie Ma, Long Chen, Yan Wang,
- Abstract要約: 自律運転においては、視覚言語モデル(VLM)は高レベルの推論において優れ、セマンティック占有度は詳細な詳細を提供する。
SparseOccVLAはシーン理解、占有予測、およびスパース占有クエリに基づく軌道計画を統一した視覚言語モデルである。
- 参考スコア(独自算出の注目度): 14.300928952407896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, Vision Language Models (VLMs) excel at high-level reasoning , whereas semantic occupancy provides fine-grained details. Despite significant progress in individual fields, there is still no method that can effectively integrate both paradigms. Conventional VLMs struggle with token explosion and limited spatiotemporal reasoning, while semantic occupancy provides a unified, explicit spatial representation but is too dense to integrate efficiently with VLMs. To address these challenges and bridge the gap between VLMs and occupancy, we propose SparseOccVLA, a novel vision-language-action model that unifies scene understanding, occupancy forecasting, and trajectory planning powered by sparse occupancy queries. Starting with a lightweight Sparse Occupancy Encoder, SparseOccVLA generates compact yet highly informative sparse occupancy queries that serve as the single bridge between vision and language. These queries are aligned into the language space and reasoned by the LLM for unified scene understanding and future occupancy forecasting. Furthermore, we introduce an LLM-guided Anchor-Diffusion Planner featuring decoupled anchor scoring and denoising, as well as cross-model trajectory-condition fusion. SparseOccVLA achieves a 7% relative improvement in CIDEr over the state-of-the-art on OmniDrive-nuScenes, a 0.5 increase in mIoU score on Occ3D-nuScenes, and sets state-of-the-art open-loop planning metric on nuScenes benchmark, demonstrating its strong holistic capability.
- Abstract(参考訳): 自律運転においては、視覚言語モデル(VLM)は高レベル推論において優れ、セマンティック占有度は詳細な詳細を提供する。
個々の分野に大きな進歩があったにもかかわらず、両方のパラダイムを効果的に統合できる手法はいまだに存在しない。
従来のVLMはトークン爆発と時空間推論に苦しむが、意味的占有力は統一的で明示的な空間表現を提供するが、VLMと効率的に統合するには高密度である。
これらの課題に対処し、VLMと占有率のギャップを埋めるために、シーン理解、占有率予測、およびスパース占有率クエリによる軌道計画を統一する新しい視覚言語行動モデルであるSparseOccVLAを提案する。
Sparse OccVLAは軽量なSparse Occupancy Encoderから始まり、視覚と言語の間の単一のブリッジとして機能するコンパクトで高情報なスパース占有クエリを生成する。
これらのクエリは言語空間に配列され、LLMによって統合されたシーン理解と将来の占有予測のために推論される。
さらに,LLM誘導型アンカー・ディフュージョン・プランナーを導入し,アンカー・スコアリングとデノベーションを分離し,モデル間トラジェクトリー・コンディショナリフュージョンを導入する。
SparseOccVLAは、OmniDrive-nuScenesの最先端に対するCIDErの相対的な改善を7%達成し、Occ3D-nuScenesのmIoUスコアは0.5増加し、nuScenesベンチマーク上で最先端のオープンループ計画基準を設定し、その強力な全体性を示す。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion [7.382475458362566]
BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
論文 参考訳(メタデータ) (2026-01-07T09:00:52Z) - ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。
現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。
テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:06:37Z) - VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs [13.486495756813078]
VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
論文 参考訳(メタデータ) (2025-09-30T08:10:56Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。