論文の概要: From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2508.07029v1
- Date: Sat, 09 Aug 2025 16:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.664019
- Title: From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving
- Title(参考訳): 模倣から最適化へ:自律運転におけるオフライン学習の比較研究
- Authors: Antonio Guillen-Perez,
- Abstract要約: この研究は、この制限に対処するための包括的なパイプラインと比較研究を提示している。
まず,BC(Behavimental Cloning)ベースラインの開発について述べる。
次に、最先端のオフライン強化学習アルゴリズムである保守的Qラーニング(CQL)を同じデータとアーキテクチャに適用することにより、より堅牢なポリシーを学習できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust driving policies from large-scale, real-world datasets is a central challenge in autonomous driving, as online data collection is often unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward approach to imitation learning, policies trained with BC are notoriously brittle and suffer from compounding errors in closed-loop execution. This work presents a comprehensive pipeline and a comparative study to address this limitation. We first develop a series of increasingly sophisticated BC baselines, culminating in a Transformer-based model that operates on a structured, entity-centric state representation. While this model achieves low imitation loss, we show that it still fails in long-horizon simulations. We then demonstrate that by applying a state-of-the-art Offline Reinforcement Learning algorithm, Conservative Q-Learning (CQL), to the same data and architecture, we can learn a significantly more robust policy. Using a carefully engineered reward function, the CQL agent learns a conservative value function that enables it to recover from minor errors and avoid out-of-distribution states. In a large-scale evaluation on 1,000 unseen scenarios from the Waymo Open Motion Dataset, our final CQL agent achieves a 3.2x higher success rate and a 7.4x lower collision rate than the strongest BC baseline, proving that an offline RL approach is critical for learning robust, long-horizon driving policies from static expert data.
- Abstract(参考訳): 大規模な実世界のデータセットから堅牢な運転ポリシーを学ぶことは、オンラインデータ収集が安全で実用的ではないことが多いため、自動運転における中心的な課題である。
ビヘイビア・クローン(BC)は模倣学習への直接的なアプローチを提供するが、BCでトレーニングされたポリシーは不安定であり、クローズドループの実行において複雑なエラーに悩まされている。
この研究は、この制限に対処するための包括的なパイプラインと比較研究を提示している。
我々はまず、構造化されたエンティティ中心の状態表現をベースとしたTransformerベースのモデルで、より洗練されたBCベースラインを開発します。
このモデルでは, 模擬損失が低いが, 長軸シミュレーションでは依然として失敗することを示す。
次に、最先端のオフライン強化学習アルゴリズムである保守的Qラーニング(CQL)を同じデータとアーキテクチャに適用することにより、より堅牢なポリシーを学習できることを実証する。
慎重にエンジニアリングされた報酬関数を使用して、CQLエージェントは、マイナーエラーから回復し、配布外状態を回避するための保守的な値関数を学ぶ。
Waymo Open Motion Datasetからの1,000の未確認シナリオに対する大規模な評価では、最終CQLエージェントは、BCベースラインよりも3.2倍高い成功率と7.4倍低い衝突率を達成した。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Towards Robust Offline Reinforcement Learning under Diverse Data
Corruption [46.16052026620402]
暗黙的なQ-ラーニング(IQL)は、様々なオフラインRLアルゴリズムにおいて、データの破損に対して顕著なレジリエンスを示す。
より堅牢なオフラインRLアプローチであるRobust IQL(RIQL)を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:54:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Contextual Conservative Q-Learning for Offline Reinforcement Learning [15.819356579361843]
逆ダイナミクスモデルを用いて取得したコンテキスト情報を用いて、信頼性の高いポリシーを学習するために、コンテキスト保守型Q-Learning(C-CQL)を提案する。
C-CQLは、オフラインのMujocoスイートとノイズの多いMujoco設定のほとんどの環境で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-03T13:33:54Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。