論文の概要: BridgeSim: Unveiling the OL-CL Gap in End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.10856v1
- Date: Sun, 12 Apr 2026 23:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.251301
- Title: BridgeSim: Unveiling the OL-CL Gap in End-to-End Autonomous Driving
- Title(参考訳): BridgeSim: エンド・ツー・エンドの自動運転におけるOL-CLギャップの展開
- Authors: Seth Z. Zhao, Luobin Wang, Hongwei Ruan, Yuxin Bao, Yilan Chen, Ziyang Leng, Abhijit Ravichandran, Honglin He, Zewei Zhou, Xu Han, Abhishek Peri, Zhiyu Huang, Pranav Desai, Henrik Christensen, Jiaqi Ma, Bolei Zhou,
- Abstract要約: Open-loop (OL) to closed-loop (CL) gap (OL-CL gap) は、OLに制限されたポリシーが閉ループ (CL) デプロイメントにおいて効果的に転送できない場合に存在する。
我々は、OLポリシーが観測ドメインシフトとObjective Mismatchに悩まされていることを実証する。
本稿では,観測シフトを校正し,状態-動作バイアスを低減し,時間的一貫性を強制するテスト時適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.683768013929004
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-loop (OL) to closed-loop (CL) gap (OL-CL gap) exists when OL-pretrained policies scoring high in OL evaluations fail to transfer effectively in closed-loop (CL) deployment. In this paper, we unveil the root causes of this systemic failure and propose a practical remedy. Specifically, we demonstrate that OL policies suffer from Observational Domain Shift and Objective Mismatch. We show that while the former is largely recoverable with adaptation techniques, the latter creates a structural inability to model complex reactive behaviors, which forms the primary OL-CL gap. We find that a wide range of OL policies learn a biased Q-value estimator that neglects both the reactive nature of CL simulations and the temporal awareness needed to reduce compounding errors. To this end, we propose a Test-Time Adaptation (TTA) framework that calibrates observational shift, reduces state-action biases, and enforces temporal consistency. Extensive experiments show that TTA effectively mitigates planning biases and yields superior scaling dynamics than its baseline counterparts. Furthermore, our analysis highlights the existence of blind spots in standard OL evaluation protocols that fail to capture the realities of closed-loop deployment.
- Abstract(参考訳): Open-loop (OL) to closed-loop (CL) gap (OL-CL gap) は、OL評価で高いスコアのOL事前ポリシーが閉ループ(CL)デプロイメントにおいて効果的に転送できない場合に存在する。
本稿では,このシステム障害の根本原因を明らかにし,実践的な治療法を提案する。
具体的には、OLポリシーが観測ドメインシフトとObjective Mismatchに悩まされていることを実証する。
前者は適応法で大半が回復可能であるが,後者は複雑な反応挙動をモデル化できない構造を生じさせ,OL-CLのギャップを生じさせることを示した。
我々は,CLシミュレーションの反応性特性と複合誤差の低減に必要な時間的認識の両方を無視するバイアス付きQ値推定器を広い範囲のOLポリシーで学習することを発見した。
この目的のために、観測シフトを校正し、状態-動作バイアスを低減し、時間的一貫性を強制するテスト時適応(TTA)フレームワークを提案する。
大規模な実験により、TTAは計画バイアスを効果的に軽減し、ベースラインよりも優れたスケーリングダイナミクスをもたらすことが示された。
さらに,本分析では,クローズドループ配置の現実を捉えるのに失敗する標準OL評価プロトコルにおける盲点の存在を強調した。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Closing the Loop: A Control-Theoretic Framework for Provably Stable Time Series Forecasting with LLMs [22.486083545585984]
大規模言語モデル(LLM)は、最近、時系列予測において例外的な可能性を示している。
既存のアプローチは通常、単純で自己回帰的な生成戦略を採用している。
我々は,新しいクローズドループフレームワークである textbfF-LLM を提案する。
論文 参考訳(メタデータ) (2026-02-13T09:35:12Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - A Comedy of Estimators: On KL Regularization in RL Training of LLMs [81.7906270099878]
強化学習(RL)は,大規模言語モデル(LLM)の推論性能を大幅に向上させる
LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。
近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。
いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスをどう形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-12-26T04:20:58Z) - Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - Self-Supervised Contrastive Learning is Approximately Supervised Contrastive Learning [48.11265601808718]
標準的な自己指導型コントラスト学習目標が暗黙的に教師付き変種を近似することを示し,我々は負のみ教師付きコントラスト学習損失(NSCL)と呼ぶ。
ラベルに依存しない,アーキテクチャに依存しない境界の下で,意味クラスの数が増えるにつれて,CLとNSCLの損失のギャップが消滅することを証明する。
論文 参考訳(メタデータ) (2025-06-04T19:43:36Z) - Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models [0.0]
In-context Learning (ICL) は、大規模言語モデル (LLM) をNLPタスクに用いた。
有効性にもかかわらず、ICLは特に挑戦的な例でエラーを起こしやすい。
提案手法は,モデルの不正確な予測と地上の真偽の補正を併用する手法であるCICL(Corative In-Context Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:39:39Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。