論文の概要: Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.19221v1
- Date: Mon, 24 Nov 2025 15:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.278962
- Title: Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving
- Title(参考訳): Percept-WAM:ロバストエンド・ツー・エンド自律運転における知覚的世界認識-行動モデル
- Authors: Jianhua Han, Meng Tian, Jiangtong Zhu, Fan He, Huixin Zhang, Sitong Guo, Dechang Zhu, Hao Tang, Pei Xu, Yuze Guo, Minzhe Niu, Haojie Zhu, Qichao Dong, Xuechao Yan, Siyuan Dong, Lu Hou, Qingqiu Huang, Xiaosong Jia, Hang Xu,
- Abstract要約: 本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
- 参考スコア(独自算出の注目度): 48.512353531499286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous driving heavily relies on accurate and robust spatial perception. Many failures arise from inaccuracies and instability, especially in long-tail scenarios and complex interactions. However, current vision-language models are weak at spatial grounding and understanding, and VLA systems built on them therefore show limited perception and localization ability. To address these challenges, we introduce Percept-WAM, a perception-enhanced World-Awareness-Action Model that is the first to implicitly integrate 2D/3D scene understanding abilities within a single vision-language model (VLM). Instead of relying on QA-style spatial reasoning, Percept-WAM unifies 2D/3D perception tasks into World-PV and World-BEV tokens, which encode both spatial coordinates and confidence. We propose a grid-conditioned prediction mechanism for dense object perception, incorporating IoU-aware scoring and parallel autoregressive decoding, improving stability in long-tail, far-range, and small-object scenarios. Additionally, Percept-WAM leverages pretrained VLM parameters to retain general intelligence (e.g., logical reasoning) and can output perception results and trajectory control outputs directly. Experiments show that Percept-WAM matches or surpasses classical detectors and segmenters on downstream perception benchmarks, achieving 51.7/58.9 mAP on COCO 2D detection and nuScenes BEV 3D detection. When integrated with trajectory decoders, it further improves planning performance on nuScenes and NAVSIM, e.g., surpassing DiffusionDrive by 2.1 in PMDS on NAVSIM. Qualitative results further highlight its strong open-vocabulary and long-tail generalization.
- Abstract(参考訳): 自律運転は、正確で堅牢な空間認識に大きく依存している。
多くの失敗は不正確さと不安定性、特にロングテールシナリオや複雑な相互作用によって生じる。
しかし、現在の視覚言語モデルは空間的接地や理解が弱いため、VLAシステムはそれに基づいて構築されており、知覚と局所化能力は限られている。
これらの課題に対処するために,視覚言語モデル (VLM) に暗黙的に2D/3Dシーン理解能力を統合する最初の世界認識行動モデルであるPercept-WAMを導入する。
QAスタイルの空間推論に頼る代わりに、Percept-WAMは2D/3D知覚タスクをWorld-PVおよびWorld-BEVトークンに統合し、空間座標と信頼性の両方を符号化する。
我々は,高密度物体認識のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
さらに、Percept-WAMはトレーニング済みのVLMパラメータを利用して一般知性(例えば論理的推論)を維持し、認識結果と軌道制御出力を直接出力することができる。
実験の結果、パーセプションWAMは古典的な検出器やセグメンタと下流の知覚ベンチマークで一致し、COCO2D検出とBEV3D検出で51.7/58.9 mAPを達成した。
トラジェクトリデコーダと統合すると、nuScenes と NAVSIM の計画性能をさらに向上し、例えば NAVSIM 上の PMDS の DiffusionDrive を 2.1 で上回る。
質的な結果は、その強い開語彙と長い尾の一般化をさらに強調する。
関連論文リスト
- Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression [12.590536117486257]
既存の視覚言語モデル(VLM)は、現実世界の空間知能を理解するのに苦労している。
GEODEは2つの特別なプラグアンドプレイモジュールでメインVLMを拡張している。
これらのモジュールの相乗効果により、1.5Bパラメータモデルは高レベルのセマンティックディスパッチとして機能します。
論文 参考訳(メタデータ) (2025-11-14T12:42:07Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision [31.929268076595122]
OccVLAは、3D占有率表現を統一されたマルチモーダル推論プロセスに統合する新しいフレームワークである。
OccVLAは、軌跡計画のためのnuScenesベンチマークの最先端結果を達成し、3次元視覚的質問応答タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-06T03:47:21Z) - VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for
Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。
我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。
本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文 参考訳(メタデータ) (2023-02-27T08:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。