論文の概要: Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration
- arxiv url: http://arxiv.org/abs/2309.09408v2
- Date: Thu, 12 Oct 2023 23:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 01:13:54.076210
- Title: Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration
- Title(参考訳): オンライン蒸留ガイド:オフラインによる安全強化学習の促進
- Authors: Jinning Li, Xinyi Liu, Banghua Zhu, Jiantao Jiao, Masayoshi Tomizuka,
Chen Tang, Wei Zhan
- Abstract要約: オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
- 参考スコア(独自算出の注目度): 75.51109230296568
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safe Reinforcement Learning (RL) aims to find a policy that achieves high
rewards while satisfying cost constraints. When learning from scratch, safe RL
agents tend to be overly conservative, which impedes exploration and restrains
the overall performance. In many realistic tasks, e.g. autonomous driving,
large-scale expert demonstration data are available. We argue that extracting
expert policy from offline data to guide online exploration is a promising
solution to mitigate the conserveness issue. Large-capacity models, e.g.
decision transformers (DT), have been proven to be competent in offline policy
learning. However, data collected in real-world scenarios rarely contain
dangerous cases (e.g., collisions), which makes it prohibitive for the policies
to learn safety concepts. Besides, these bulk policy networks cannot meet the
computation speed requirements at inference time on real-world tasks such as
autonomous driving. To this end, we propose Guided Online Distillation (GOLD),
an offline-to-online safe RL framework. GOLD distills an offline DT policy into
a lightweight policy network through guided online safe RL training, which
outperforms both the offline DT policy and online safe RL algorithms.
Experiments in both benchmark safe RL tasks and real-world driving tasks based
on the Waymo Open Motion Dataset (WOMD) demonstrate that GOLD can successfully
distill lightweight policies and solve decision-making problems in challenging
safety-critical scenarios.
- Abstract(参考訳): 安全強化学習(RL)は、コスト制約を満たしつつ高い報酬を達成する政策を見つけることを目的としている。
スクラッチから学ぶと、安全なRLエージェントは過度に保守的になり、探索を妨げ、全体的なパフォーマンスを抑制する。
多くの現実的なタスク、例えば自動運転では、大規模な専門家によるデモンストレーションデータが利用可能である。
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
意思決定変換器(DT)のような大容量モデルは、オフラインのポリシー学習に適していることが証明されている。
しかし、現実のシナリオで収集されたデータは、危険なケース(例えば衝突)をほとんど含まないため、安全概念を学ぶための政策が禁止される。
さらに、これらのバルクポリシネットワークは、自動運転のような現実世界のタスクにおいて、推論時に計算速度の要求を満たせない。
そこで本研究では,オフラインからオンラインへの安全なrlフレームワークであるgoldを提案する。
GOLDは、オフラインDTポリシーとオンライン安全なRLアルゴリズムの両方を上回り、オンライン安全なRLトレーニングを通じて、オフラインDTポリシーを軽量なポリシーネットワークに蒸留する。
Waymo Open Motion Dataset(WOMD)に基づくベンチマークセーフなRLタスクと実世界の運転タスクの両方の実験では、GOLDは軽量なポリシーの蒸留に成功し、安全クリティカルなシナリオに挑戦して意思決定問題を解決することができることを示した。
関連論文リスト
- FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文 参考訳(メタデータ) (2024-07-06T03:22:57Z) - DRNet: A Decision-Making Method for Autonomous Lane Changingwith Deep
Reinforcement Learning [7.2282857478457805]
DRNetは、DRLエージェントがシミュレートされた高速道路上で合理的な車線変更を行うことで、運転を学べる新しいDRLベースのフレームワークである。
我々のDRLエージェントは、衝突を起こさずに所望のタスクを学習でき、DDQNや他のベースラインモデルより優れています。
論文 参考訳(メタデータ) (2023-11-02T21:17:52Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones [81.49106778460238]
リカバリRLは、オフラインデータを使用して、ポリシー学習の前に制約違反ゾーンについて学習する。
2つのコンタクトリッチな操作タスクと画像に基づくナビゲーションタスクを含む6つのシミュレーション領域におけるリカバリRLの評価を行った。
その結果,リカバリRLは制約違反やタスク成功を2~20倍,物理実験では3倍の効率で処理できることが示唆された。
論文 参考訳(メタデータ) (2020-10-29T20:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。