Fugu-MT 論文翻訳(概要): Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration

論文の概要: Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration

arxiv url: http://arxiv.org/abs/2309.09408v1
Date: Mon, 18 Sep 2023 00:22:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 15:44:01.165482
Title: Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration
Title（参考訳）: オンライン蒸留ガイド:オフラインによる安全強化学習の促進
Authors: Jinning Li, Xinyi Liu, Banghua Zhu, Jiantao Jiao, Masayoshi Tomizuka, Chen Tang, Wei Zhan
Abstract要約: オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。 GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
参考スコア（独自算出の注目度）: 75.51109230296568
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Safe Reinforcement Learning (RL) aims to find a policy that achieves high rewards while satisfying cost constraints. When learning from scratch, safe RL agents tend to be overly conservative, which impedes exploration and restrains the overall performance. In many realistic tasks, e.g. autonomous driving, large-scale expert demonstration data are available. We argue that extracting expert policy from offline data to guide online exploration is a promising solution to mitigate the conserveness issue. Large-capacity models, e.g. decision transformers (DT), have been proven to be competent in offline policy learning. However, data collected in real-world scenarios rarely contain dangerous cases (e.g., collisions), which makes it prohibitive for the policies to learn safety concepts. Besides, these bulk policy networks cannot meet the computation speed requirements at inference time on real-world tasks such as autonomous driving. To this end, we propose Guided Online Distillation (GOLD), an offline-to-online safe RL framework. GOLD distills an offline DT policy into a lightweight policy network through guided online safe RL training, which outperforms both the offline DT policy and online safe RL algorithms. Experiments in both benchmark safe RL tasks and real-world driving tasks based on the Waymo Open Motion Dataset (WOMD) demonstrate that GOLD can successfully distill lightweight policies and solve decision-making problems in challenging safety-critical scenarios.
Abstract（参考訳）: 安全強化学習(RL)は、コスト制約を満たしつつ高い報酬を達成する政策を見つけることを目的としている。スクラッチから学ぶと、安全なRLエージェントは過度に保守的になり、探索を妨げ、全体的なパフォーマンスを抑制する。多くの現実的なタスク、例えば自動運転では、大規模な専門家によるデモンストレーションデータが利用可能である。オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。意思決定変換器(DT)のような大容量モデルは、オフラインのポリシー学習に適していることが証明されている。しかし、現実のシナリオで収集されたデータは、危険なケース(例えば衝突)をほとんど含まないため、安全概念を学ぶための政策が禁止される。さらに、これらのバルクポリシネットワークは、自動運転のような現実世界のタスクにおいて、推論時に計算速度の要求を満たせない。そこで本研究では,オフラインからオンラインへの安全なrlフレームワークであるgoldを提案する。 GOLDは、オフラインDTポリシーとオンライン安全なRLアルゴリズムの両方を上回り、オンライン安全なRLトレーニングを通じて、オフラインDTポリシーを軽量なポリシーネットワークに蒸留する。 Waymo Open Motion Dataset(WOMD)に基づくベンチマークセーフなRLタスクと実世界の運転タスクの両方の実験では、GOLDは軽量なポリシーの蒸留に成功し、安全クリティカルなシナリオに挑戦して意思決定問題を解決することができることを示した。

関連論文リスト

Reward-Safety Balance in Offline Safe RL via Diffusion Regularization [16.5825143820431]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。 DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文参考訳（メタデータ） (2025-02-18T00:00:03Z)
Safe Reinforcement Learning with Minimal Supervision [45.44831696628473]
実世界での強化学習(RL)は、エージェントが自分自身や他人に害を与えずに探索できる手順を必要とする。安全なRLの問題に対する最も成功したソリューションは、オフラインデータを利用して安全なセットを学び、安全なオンライン探索を可能にします。本稿では,初期安全学習問題をオフラインで学習するためのデータ量と質が,オンライン上での安全RLポリシーの学習能力に与える影響について検討する。
論文参考訳（メタデータ） (2025-01-08T13:04:08Z)
Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy [12.589890916332196]
オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-12-05T18:51:18Z)
FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文参考訳（メタデータ） (2024-07-06T03:22:57Z)
DRNet: A Decision-Making Method for Autonomous Lane Changingwith Deep Reinforcement Learning [7.2282857478457805]
DRNetは、DRLエージェントがシミュレートされた高速道路上で合理的な車線変更を行うことで、運転を学べる新しいDRLベースのフレームワークである。我々のDRLエージェントは、衝突を起こさずに所望のタスクを学習でき、DDQNや他のベースラインモデルより優れています。
論文参考訳（メタデータ） (2023-11-02T21:17:52Z)
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文参考訳（メタデータ） (2023-10-12T17:50:09Z)
Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文参考訳（メタデータ） (2023-02-14T21:27:10Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-11-20T17:10:40Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文参考訳（メタデータ） (2022-02-10T05:43:41Z)
Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones [81.49106778460238]
リカバリRLは、オフラインデータを使用して、ポリシー学習の前に制約違反ゾーンについて学習する。 2つのコンタクトリッチな操作タスクと画像に基づくナビゲーションタスクを含む6つのシミュレーション領域におけるリカバリRLの評価を行った。その結果,リカバリRLは制約違反やタスク成功を2～20倍,物理実験では3倍の効率で処理できることが示唆された。
論文参考訳（メタデータ） (2020-10-29T20:10:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。