Fugu-MT 論文翻訳(概要): CLOVER: Closed-Loop Value Estimation and Ranking for End-to-End Autonomous Driving Planning

論文の概要: CLOVER: Closed-Loop Value Estimation and Ranking for End-to-End Autonomous Driving Planning

arxiv url: http://arxiv.org/abs/2605.15120v2
Date: Fri, 15 May 2026 11:07:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 17:44:16.255997
Title: CLOVER: Closed-Loop Value Estimation and Ranking for End-to-End Autonomous Driving Planning
Title（参考訳）: CLOVER: エンドツーエンド自動運転計画のための閉ループ値推定とランク付け
Authors: Sining Ang, Yuguang Yang, Canyu Chen, Yan Wang,
Abstract要約: CLOVERはエンドツーエンドの自動運転計画のためのフレームワークである。ジェネレータは多様な候補軌道を生成し、スコアは計画値のサブスコアを予測する。ジェネレータは教師が選択したトップ$とベクターParetoターゲットに洗練される。
参考スコア（独自算出の注目度）: 11.2767413780552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end autonomous driving planners are commonly trained by imitating a single logged trajectory, yet evaluated by rule-based planning metrics that measure safety, feasibility, progress, and comfort. This creates a training--evaluation mismatch: trajectories close to the logged path may violate planning rules, while alternatives farther from the demonstration can remain valid and high-scoring. The mismatch is especially limiting for proposal-selection planners, whose performance depends on candidate-set coverage and scorer ranking quality. We propose CLOVER, a Closed-LOop Value Estimation and Ranking framework for end-to-end autonomous driving planning. CLOVER follows a lightweight generator--scorer formulation: a generator produces diverse candidate trajectories, and a scorer predicts planning-metric sub-scores to rank them at inference time. To expand proposal support beyond single-trajectory imitation, CLOVER constructs evaluator-filtered pseudo-expert trajectories and trains the generator with set-level coverage supervision. It then performs conservative closed-loop self-distillation: the scorer is fitted to true evaluator sub-scores on generated proposals, while the generator is refined toward teacher-selected top-$k$ and vector-Pareto targets with stability regularization. We analyze when an imperfect scorer can improve the generator, showing that scorer-mediated refinement is reliable when scorer-selected targets are enriched under the true evaluator and updates remain conservative. On NAVSIM, CLOVER achieves 94.5 PDMS and 90.4 EPDMS, establishing a new state of the art. On the more challenging NavHard split, it obtains 48.3 EPDMS, matching the strongest reported result. On supplementary nuScenes open-loop evaluation, CLOVER achieves the lowest L2 error and collision rate among compared methods. Code data will be released at https://github.com/WilliamXuanYu/CLOVER.
Abstract（参考訳）: エンドツーエンドの自動運転プランナーは、単一のログ化された軌道を模倣して訓練されることが多いが、安全、実現可能性、進捗、快適さを計測するルールベースの計画指標によって評価される。ログされたパスに近い軌道が計画ルールに違反している場合があり、一方、デモから遠く離れた選択肢は有効でハイスコアのままである。このミスマッチは、候補セットのカバレッジとスコアラーのランキング品質に依存する提案-選択プランナーに特に制限されている。エンド・ツー・エンドの自動運転計画のためのクローズド・ループ値推定・ランキングフレームワークであるCLOVERを提案する。 CLOVERは軽量なジェネレータの定式化に従う: ジェネレータは様々な候補軌跡を生成し、スコアラは予測時間でそれらをランク付けするために計画単位のサブスコアを予測する。 CLOVERは、単軌道模倣を超えて提案サポートを拡張するため、評価器でフィルタされた擬似実験軌道を構築し、設定レベルのカバレッジ監視でジェネレータを訓練する。スコアラは生成した提案の真の評価器サブスコアに適合し、ジェネレータは安定な正規化を伴う教師選択のトップ-k$とベクター-パレートターゲットに向けて洗練される。我々は、不完全なスコアラーがジェネレータを改善することができるときの分析を行い、スコアラーが選択されたターゲットが真の評価の下でリッチ化され、更新が保守的のままである場合に、スコアラーを介する改善が信頼できることを示す。 NAVSIMでは、CLOVERは94.5 PDMSと90.4 EPDMSを達成した。より挑戦的なNavHard分割では48.3 EPDMSを取得し、最も強い報告結果と一致する。 CLOVER は補助的な nuScenes の開ループ評価において, 比較法で最小の L2 誤差と衝突率を達成する。コードデータはhttps://github.com/WilliamXuanYu/CLOVERで公開される。

関連論文リスト

PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement [22.285969725581044]
大規模言語モデル(LLM)ベースのエージェントは、実行時に失敗するように見える一貫性のある計画を生成する。 PIVOTは、トラジェクトリを最適化可能なオブジェクトとして、環境相互作用を通じて反復的に洗練する自己管理フレームワークを通じて、この計画実行ミスアライメントに対処する。
論文参考訳（メタデータ） (2026-05-11T20:43:20Z)
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework [49.531001563853984]
RAD-2はクローズドループ計画のための統一されたジェネレータ・ディスクリミネーターフレームワークである。様々な軌道候補を生成する一方、RL最適化判別器は、これらの候補を長期的な運転品質に応じて再現する。強い拡散ベースのプランナーに比べて衝突速度を56%削減する。
論文参考訳（メタデータ） (2026-04-16T17:59:44Z)
CorrectionPlanner: Self-Correction Planner with Reinforcement Learning in Autonomous Driving [55.88697462014118]
CorrectionPlannerは自己補正を備えた自動回帰プランナーである。 Waymaxでは衝突率を20%以上削減し、nuPlanでは最先端の計画スコアを達成している。
論文参考訳（メタデータ） (2026-03-16T18:03:21Z)
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
Improving Diffusion Planners by Self-Supervised Action Gating with Energies [31.430422680816907]
遅延整合性信号を用いて動的に不整合プランをペナライズする自己教師行動ゲーティング(SAGE)を提案する。 SAGEは、オフライン状態シーケンスにJEPAエンコーダと、短地平線遷移のための動作条件付き潜在予測器をトレーニングする。テスト時に、SAGEは各サンプル候補に潜伏予測誤差によって与えられるエネルギを割り当て、この実現可能性スコアと値推定を組み合わせて選択アクションを選択する。
論文参考訳（メタデータ） (2026-03-03T06:36:16Z)
Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making [0.0]
バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
論文参考訳（メタデータ） (2025-12-26T10:44:40Z)
Measuring What Matters: Scenario-Driven Evaluation for Trajectory Predictors in Autonomous Driving [8.115144579497644]
本稿では,予測器の性能を精度と多様性の2次元で適応的に評価する包括的パイプラインを提案する。実世界のデータセットを用いたクローズドループベンチマークの実験は、パイプラインが従来のメトリクスよりも合理的な評価を得られることを示している。
論文参考訳（メタデータ） (2025-12-13T06:48:32Z)
Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving [17.533465904228844]
そこで我々は,不確実性推定を伴うゴールポイントに依存するロバストな軌跡を生成可能な,新しい階層型デュアルシステムフレームワークであるMimirを提案する。 Mimirは従来の最先端の手法を20%改善し、ハイレベルなモジュール推論速度の1.6倍の改善を実現している。
論文参考訳（メタデータ） (2025-12-08T03:31:25Z)
Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。異なるデータ条件に合わせた2つの学習方法を提案する。この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文参考訳（メタデータ） (2025-09-30T20:36:41Z)
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。 Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文参考訳（メタデータ） (2025-05-23T09:22:19Z)
Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文参考訳（メタデータ） (2025-03-14T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。