論文の概要: OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision
- arxiv url: http://arxiv.org/abs/2509.05578v1
- Date: Sat, 06 Sep 2025 03:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.594552
- Title: OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision
- Title(参考訳): OccVLA: 暗黙の3次元業務シミュレーションによる視覚・言語・行動モデル
- Authors: Ruixun Liu, Lingyu Kong, Derun Li, Hang Zhao,
- Abstract要約: OccVLAは、3D占有率表現を統一されたマルチモーダル推論プロセスに統合する新しいフレームワークである。
OccVLAは、軌跡計画のためのnuScenesベンチマークの最先端結果を達成し、3次元視覚的質問応答タスクにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 31.929268076595122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong vision-language reasoning abilities but still lack robust 3D spatial understanding, which is critical for autonomous driving. This limitation stems from two key challenges: (1) the difficulty of constructing accessible yet effective 3D representations without expensive manual annotations, and (2) the loss of fine-grained spatial details in VLMs due to the absence of large-scale 3D vision-language pretraining. To address these challenges, we propose OccVLA, a novel framework that integrates 3D occupancy representations into a unified multimodal reasoning process. Unlike prior approaches that rely on explicit 3D inputs, OccVLA treats dense 3D occupancy as both a predictive output and a supervisory signal, enabling the model to learn fine-grained spatial structures directly from 2D visual inputs. The occupancy predictions are regarded as implicit reasoning processes and can be skipped during inference without performance degradation, thereby adding no extra computational overhead. OccVLA achieves state-of-the-art results on the nuScenes benchmark for trajectory planning and demonstrates superior performance on 3D visual question-answering tasks, offering a scalable, interpretable, and fully vision-based solution for autonomous driving.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚言語推論能力は高いが、3次元空間的理解は十分ではない。
この制限は,(1)高額な手動アノテーションを使わずに,アクセス可能かつ効果的な3D表現を構築することの難しさ,(2)大規模3D視覚言語事前学習の欠如により,VLMの細粒度空間詳細が失われること,の2つの課題に起因している。
これらの課題に対処するため,OccVLAを提案する。OccVLAは3次元占有率表現を統一されたマルチモーダル推論プロセスに統合する新しいフレームワークである。
明示的な3D入力に依存する従来のアプローチとは異なり、OccVLAは密度の高い3D占有を予測出力と監督信号の両方として扱い、モデルが2D視覚入力から直接きめ細かな空間構造を学習できるようにする。
占有率予測は暗黙の推論プロセスと見なされ、性能劣化なしに推論中にスキップできるため、余分な計算オーバーヘッドは加えない。
OccVLAは、軌跡計画のためのnuScenesベンチマークの最先端の結果を達成し、スケーラブルで解釈可能な完全な視覚ベースの自律運転ソリューションを提供することで、3D視覚的質問応答タスクにおける優れたパフォーマンスを示す。
関連論文リスト
- VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。
グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。
SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文 参考訳(メタデータ) (2025-07-12T16:29:02Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [8.090058633054852]
ビジュアライゼーション・ランゲージ・アクション(VLA)モデルに3次元幾何学的特徴を暗黙的に注入するプラグイン・アンド・プレイ・モジュールを導入する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation [68.80467240885642]
3D-VLのジェネラリストを開発する上で重要な障害は、効率的なシーン表現が欠如していることによる、データのスケーラビリティにある。
本稿では,2次元知覚と3次元空間構造を橋渡しする効率的なシーン表現である,凝縮特徴格子(CFG)上に構築された3次元VLモデルLEO-VLを提案する。
我々は、現実世界の屋内シーンの4つの領域と、キャプションや対話といった5つのタスクにまたがる700万以上の高品質な3D-VLデータをキュレートする。
論文 参考訳(メタデータ) (2025-06-11T16:56:34Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。