論文の概要: Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning
- arxiv url: http://arxiv.org/abs/2509.03658v2
- Date: Sat, 06 Sep 2025 15:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.923551
- Title: Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning
- Title(参考訳): 効率的なVirtuoso: ゴール導出軌道計画のための遅延拡散変圧器モデル
- Authors: Antonio Guillen-Perez,
- Abstract要約: 本稿では,目標条件付き軌道計画のための条件付き潜在拡散モデルであるEfficient Virtuosoを提案する。
提案手法は,Open Motionデータセット上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。
一つのゴールが戦略的曖昧さを解決できる一方で、人間の運転行動を反映した正確で忠実な戦術実行を実現するためには、よりリッチで多段階のスパース経路が不可欠である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to generate a diverse and plausible distribution of future trajectories is a critical capability for autonomous vehicle planning systems. While recent generative models have shown promise, achieving high fidelity, computational efficiency, and precise control remains a significant challenge. In this paper, we present the Efficient Virtuoso, a conditional latent diffusion model for goal-conditioned trajectory planning. Our approach introduces a novel two-stage normalization pipeline that first scales trajectories to preserve their geometric aspect ratio and then normalizes the resulting PCA latent space to ensure a stable training target. The denoising process is performed efficiently in this low-dimensional latent space by a simple MLP denoiser, which is conditioned on a rich scene context fused by a powerful Transformer-based StateEncoder. We demonstrate that our method achieves state-of-the-art performance on the Waymo Open Motion Dataset, achieving a minimum Average Displacement Error (minADE) of 0.25. Furthermore, through a rigorous ablation study on goal representation, we provide a key insight: while a single endpoint goal can resolve strategic ambiguity, a richer, multi-step sparse route is essential for enabling the precise, high-fidelity tactical execution that mirrors nuanced human driving behavior.
- Abstract(参考訳): 将来的な軌道の多様かつ妥当な分布を生成する能力は、自動運転車計画システムにとって重要な能力である。
最近の生成モデルは将来性を示しているが、高い忠実性、計算効率、正確な制御を達成することは大きな課題である。
本稿では,目標条件付き軌道計画のための条件付き遅延拡散モデルであるEfficient Virtuosoを提案する。
提案手法では,2段階の正規化パイプラインを導入し,まず軌道を拡大して幾何学的アスペクト比を保ち,得られたPCA潜在空間を正規化し,安定したトレーニングターゲットを確保する。
簡易なMPPデノイザは、強力なトランスフォーマーベースのStateEncoderによって融合されたリッチなシーンコンテキストに基づいて、この低次元潜伏空間で効率的に復調処理を行う。
提案手法はWaymo Open Motion Dataset上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。
さらに、目標表現に関する厳密なアブレーション研究を通じて、重要な洞察を与える: 単一エンドポイントのゴールが戦略的曖昧さを解決できる一方で、よりリッチで多段階のスパース経路は、人間の運転行動を反映した正確で高忠実な戦術実行を可能にするために不可欠である。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics [6.208369829942616]
我々は,新しい強化学習アルゴリズムであるUnified Latent Dynamics (ULD)を提案する。
ULDはモデルベースアプローチの表現力でモデルフリー手法の効率を統一する。
Gymロコモーション、DeepMind Control(プロセプティブおよびビジュアル)、Atariにまたがる80環境での評価を行った。
論文 参考訳(メタデータ) (2026-02-13T06:06:56Z) - Dual-End Consistency Model [41.982957134224904]
スロー反復サンプリングは拡散モデルとフローベース生成モデルの実践的展開において大きなボトルネックとなる。
本稿では,安定かつ効果的なトレーニングを実現するために,バイタルサブ軌道クラスタを選択するDual-End Consistency Model (DE-CM)を提案する。
提案手法は,ImageNet 256x256データセットの1ステップ生成において,最先端のFIDスコア1.70を達成し,既存のCMベースのワンステップアプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-11T11:51:01Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics [34.570579623171476]
The First Reasoning, Then Forecasting”は、行動意図を軌道予測のための空間的ガイダンスとして明示的に組み込む戦略である。
本稿では,新しいクエリ中心の逆強化学習方式を基礎とした,解釈可能な報酬駆動型意図推論手法を提案する。
提案手法は軌道予測の信頼性を著しく向上させ,最先端手法と比較して高い競争性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T09:46:17Z) - Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Safety-Critical Traffic Simulation with Guided Latent Diffusion Model [8.011306318131458]
安全クリティカルな交通シミュレーションは、自動運転システムを評価する上で重要な役割を果たす。
本稿では,物理的に現実的で逆向きなシナリオを生成可能なガイド付き潜時拡散モデル(LDM)を提案する。
我々の研究は、現実的な安全クリティカルなシナリオシミュレーションのための効果的なツールを提供し、自律運転システムのより堅牢な評価の道を開く。
論文 参考訳(メタデータ) (2025-05-01T13:33:34Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Model Checking for Closed-Loop Robot Reactive Planning [0.0]
モデル検査を用いて、ディファレンシャルドライブホイールロボットの多段階計画を作成することにより、即時危険を回避できることを示す。
簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。
論文 参考訳(メタデータ) (2023-11-16T11:02:29Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。