論文の概要: AdaWM: Adaptive World Model based Planning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2501.13072v2
- Date: Thu, 23 Jan 2025 04:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 12:37:13.548374
- Title: AdaWM: Adaptive World Model based Planning for Autonomous Driving
- Title(参考訳): AdaWM: 自律運転のための適応的世界モデルに基づく計画
- Authors: Hang Wang, Xin Ye, Feng Tao, Chenbin Pan, Abhirup Mallik, Burhaneddin Yaman, Liu Ren, Junshan Zhang,
- Abstract要約: 世界モデルに基づく強化学習(RL)が自律運転の有望なアプローチとして登場した。
プレトレイン-ファイントゥンパラダイムは、オンラインRLが事前訓練されたモデルによってパフォーマンスされ、オフラインで学習されるポリシーで使用されることが多い。
本稿では,アダプティブ・ワールド・モデルに基づく計画手法であるAdaWMを紹介する。(a)ミスマッチを定量化し,微調整戦略を通知するミスマッチ識別と,(b)ポリシーやモデルを必要に応じて選択的に更新するアライメント駆動微調整である。
- 参考スコア(独自算出の注目度): 34.57859869929471
- License:
- Abstract: World model based reinforcement learning (RL) has emerged as a promising approach for autonomous driving, which learns a latent dynamics model and uses it to train a planning policy. To speed up the learning process, the pretrain-finetune paradigm is often used, where online RL is initialized by a pretrained model and a policy learned offline. However, naively performing such initialization in RL may result in dramatic performance degradation during the online interactions in the new task. To tackle this challenge, we first analyze the performance degradation and identify two primary root causes therein: the mismatch of the planning policy and the mismatch of the dynamics model, due to distribution shift. We further analyze the effects of these factors on performance degradation during finetuning, and our findings reveal that the choice of finetuning strategies plays a pivotal role in mitigating these effects. We then introduce AdaWM, an Adaptive World Model based planning method, featuring two key steps: (a) mismatch identification, which quantifies the mismatches and informs the finetuning strategy, and (b) alignment-driven finetuning, which selectively updates either the policy or the model as needed using efficient low-rank updates. Extensive experiments on the challenging CARLA driving tasks demonstrate that AdaWM significantly improves the finetuning process, resulting in more robust and efficient performance in autonomous driving systems.
- Abstract(参考訳): 世界モデルに基づく強化学習(RL)は、自律運転において有望なアプローチとして登場し、潜在力学モデルを学び、計画方針のトレーニングに利用している。
学習プロセスを高速化するために、オンラインRLは事前訓練されたモデルによって初期化され、オフラインで学習されるポリシーである。
しかし、そのような初期化を RL で間接的に行うと、新しいタスクにおけるオンラインインタラクション中に劇的なパフォーマンス劣化が発生する可能性がある。
この課題に対処するため,我々はまず性能劣化を分析し,計画方針のミスマッチと動的モデルのミスマッチの2つの根本原因を特定する。
さらに,これらの要因が微調整時の性能劣化に与える影響を解析した結果,微調整戦略の選択がこれらの効果を緩和する上で重要な役割を担っていることが明らかとなった。
次に、アダプティブワールドモデルに基づく計画手法であるAdaWMを紹介する。
(a)ミスマッチを定量化し、微調整戦略を通知するミスマッチ識別
(b)アライメント駆動の微調整。効率的な低ランク更新を使用して、必要に応じてポリシーまたはモデルを選択的に更新する。
挑戦的なCARLA運転タスクに関する大規模な実験は、AdaWMが微調整プロセスを大幅に改善し、自律運転システムにおいてより堅牢で効率的な性能をもたらすことを示した。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。