論文の概要: FOSP: Fine-tuning Offline Safe Policy through World Models
- arxiv url: http://arxiv.org/abs/2407.04942v1
- Date: Sat, 6 Jul 2024 03:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:47:42.912552
- Title: FOSP: Fine-tuning Offline Safe Policy through World Models
- Title(参考訳): FOSP:世界モデルによる極細調整のオフライン安全政策
- Authors: Chenyang Cao, Yucheng Xin, Silang Wu, Longxiang He, Zichen Yan, Junbo Tan, Xueqian Wang,
- Abstract要約: モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
- 参考スコア(独自算出の注目度): 3.7971075341023526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based Reinforcement Learning (RL) has shown its high training efficiency and capability of handling high-dimensional tasks. Regarding safety issues, safe model-based RL can achieve nearly zero-cost performance and effectively manage the trade-off between performance and safety. Nevertheless, prior works still pose safety challenges due to the online exploration in real-world deployment. To address this, some offline RL methods have emerged as solutions, which learn from a static dataset in a safe way by avoiding interactions with the environment. In this paper, we aim to further enhance safety during the deployment stage for vision-based robotic tasks by fine-tuning an offline-trained policy. We incorporate in-sample optimization, model-based policy expansion, and reachability guidance to construct a safe offline-to-online framework. Moreover, our method proves to improve the generalization of offline policy in unseen safety-constrained scenarios. Finally, the efficiency of our method is validated on simulation benchmarks with five vision-only tasks and a real robot by solving some deployment problems using limited data.
- Abstract(参考訳): モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
安全性の問題に関して、安全なモデルベースのRLは、ほぼゼロコストのパフォーマンスを実現し、パフォーマンスと安全性のトレードオフを効果的に管理できる。
それでも、以前の作業は、実際の展開におけるオンライン探索のために、依然として安全上の課題を生んでいる。
この問題に対処するため、いくつかのオフラインRLメソッドがソリューションとして登場し、環境とのインタラクションを回避して、静的データセットから安全な方法で学習している。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
サンプル内最適化、モデルベースのポリシー拡張、リーチビリティガイダンスを導入し、安全なオフライン・オンライン・フレームワークを構築する。
さらに,本手法は,未確認の安全制約シナリオにおけるオフラインポリシーの一般化を実証する。
最後に,5つの視覚のみのタスクと実際のロボットを用いたシミュレーションベンチマークにおいて,限られたデータを用いた配置問題の解法により,本手法の有効性を検証した。
関連論文リスト
- OASIS: Conditional Distribution Shaping for Offline Safe Reinforcement Learning [30.540598779743455]
オフライン安全な強化学習(RL)は、事前コンパイルされたデータセットを使用して制約を満たすポリシーをトレーニングすることを目的としている。
本稿では、これらの限界を克服するために、オフラインセーフなRLに新たなパラダイムを導入する。
提案手法は,効率的なデータ利用と正規化手法により,安全制約を遵守する。
論文 参考訳(メタデータ) (2024-07-19T20:15:00Z) - Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - SafeDreamer: Safe Reinforcement Learning with World Models [7.773096110271637]
本稿では,ラグランジュ的手法を世界モデル計画プロセスに取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
本手法は,低次元および視覚のみの入力にまたがる様々なタスクにおいて,ほぼゼロコストの性能を実現する。
論文 参考訳(メタデータ) (2023-07-14T06:00:08Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。