論文の概要: CLAP: Contrastive Latent-space Prompt Optimization for End-to-end Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.17284v1
- Date: Sun, 17 May 2026 06:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.829097
- Title: CLAP: Contrastive Latent-space Prompt Optimization for End-to-end Autonomous Driving
- Title(参考訳): CLAP: エンドツーエンド自動運転のための対照的な潜在空間プロンプト最適化
- Authors: Ruiyang Zhu, Yuehan He, Boyuan Zheng, Zesen Zhao, Ahmad Chalhoub, Qingzhao Zhang, Z. Morley Mao,
- Abstract要約: CLAPは,ロードブロックごとのソフトプロンプトで凍結したVLA駆動モデルを拡張した位置認識適応フレームワークである。
様々な最先端のVLAバックボーンを持つNAVSIMベンチマークでは、CLAPは通常のフレームに回帰することなく、困難なシナリオ計画エラーを24%削減する。
- 参考スコア(独自算出の注目度): 12.890001628695215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving systems powered by Vision-Language-Action (VLA) models achieve strong performance on common driving scenarios, yet remain brittle in rare but safety-critical long-tail situations such as active construction zones and complex yielding geometries. In this paper, we present a method that addresses the long-tail challenging scenes beyond data scaling and model training. We introduce CLAP (Contrastive Latent-space Prompt optimization), a location-aware adaptation framework that augments a frozen VLA driving model with per-roadblock soft prompts, optimized from crowdsourced data and retrieved on demand via Vehicle-to-Everything (V2X) communication. Our approach rests on two observations from VLAs' latent space: (i) at the VLA's hidden-state layer, scenarios from the same roadblock cluster tightly and occupy compact regions of the latent space; and (ii) within a single roadblock, long-tail and normal frames are heavily intermixed in the latent representation, making it difficult to improve one without disturbing the other. CLAP addresses this via a two-stage pipeline: supervised contrastive learning to discover a roadblock-specific hard-scene direction, followed by directionally regularized prompt optimization that selectively improves challenging frames while preserving normal frame performance. On the NAVSIM benchmark with various state-of-the-art VLA backbones, CLAP reduces challenging scenario planning error by 24% with no regression on normal frames, significantly improving planning performance.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルによるエンド・ツー・エンドの自律運転システムは、一般的な運転シナリオにおいて強力な性能を発揮するが、アクティブな建設ゾーンや複雑な収量ジオメトリーのような、稀だが安全上重要なロングテールの状況では不安定である。
本稿では,データスケーリングやモデルトレーニングを超越した,長期的課題に対処する手法を提案する。
CLAP(Contrastive Latent-space Prompt Optimization)は,クラウドソースデータから最適化され,V2X通信を介して要求に応じて検索される,ロードブロックごとのソフトプロンプトで凍結VLA駆動モデルを拡張した位置対応適応フレームワークである。
我々のアプローチは、VLAの潜伏空間からの2つの観測に基づいている。
(i)VLAの隠れ状態層において、同一の道路ブロッククラスタからのシナリオが密集し、潜在空間のコンパクト領域を占有する。
(ii) 一つの道路ブロック内において, 縦長フレームと縦長フレームと縦長フレームとを交互に交互に混在させ, 他方を乱すことなく改良することが困難である。
CLAPは2段階のパイプラインを通じてこの問題に対処する: ブロック固有のハードシーン方向を見つけるための教師付きコントラスト学習と、通常のフレーム性能を維持しながらチャレンジフレームを選択的に改善する方向規則化されたプロンプト最適化。
様々な最先端のVLAバックボーンを持つNAVSIMベンチマークでは、CLAPは通常のフレームに回帰することなく、難解なシナリオ計画エラーを24%削減し、計画性能を大幅に改善した。
関連論文リスト
- MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving [62.43744546817599]
視覚言語-アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、クローズドループ設定で評価すると不安定である。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
論文 参考訳(メタデータ) (2026-05-13T23:35:14Z) - RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework [49.531001563853984]
RAD-2はクローズドループ計画のための統一されたジェネレータ・ディスクリミネーターフレームワークである。
様々な軌道候補を生成する一方、RL最適化判別器は、これらの候補を長期的な運転品質に応じて再現する。
強い拡散ベースのプランナーに比べて衝突速度を56%削減する。
論文 参考訳(メタデータ) (2026-04-16T17:59:44Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - A Unified Candidate Set with Scene-Adaptive Refinement via Diffusion for End-to-End Autonomous Driving [11.096777574777406]
固定軌跡語彙は、定期運転において安定したカバレッジを提供するが、しばしば複雑な相互作用において最適解を見逃す。
そこで我々は,CdDriveを提案する。このCdDriveは,元の語彙候補を保存し,語彙条件付き拡散復調によって生成されたシーン適応型候補を付加する。
どちらの候補も共有選択モジュールによって共同でスコア付けされ、ルーチンと高度にインタラクティブなシナリオで信頼性の高いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-03T05:14:08Z) - ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。
現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。
テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:06:37Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。