論文の概要: FOSP: Fine-tuning Offline Safe Policy through World Models
- arxiv url: http://arxiv.org/abs/2407.04942v2
- Date: Sun, 02 Mar 2025 11:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:03:51.254427
- Title: FOSP: Fine-tuning Offline Safe Policy through World Models
- Title(参考訳): FOSP:世界モデルによる極細調整のオフライン安全政策
- Authors: Chenyang Cao, Yucheng Xin, Silang Wu, Longxiang He, Zichen Yan, Junbo Tan, Xueqian Wang,
- Abstract要約: オフラインセーフ強化学習(RL)は、静的データセットから学習し、探索を制限することで、安全性の制約に対処することを目指している。
本稿では、オフライン事前学習ポリシーをオンラインで微調整することで、視覚に基づくロボットタスクの展開時の安全性向上を図る。
- 参考スコア(独自算出の注目度): 3.7971075341023526
- License:
- Abstract: Offline Safe Reinforcement Learning (RL) seeks to address safety constraints by learning from static datasets and restricting exploration. However, these approaches heavily rely on the dataset and struggle to generalize to unseen scenarios safely. In this paper, we aim to improve safety during the deployment of vision-based robotic tasks through online fine-tuning an offline pretrained policy. To facilitate effective fine-tuning, we introduce model-based RL, which is known for its data efficiency. Specifically, our method employs in-sample optimization to improve offline training efficiency while incorporating reachability guidance to ensure safety. After obtaining an offline safe policy, a safe policy expansion approach is leveraged for online fine-tuning. The performance of our method is validated on simulation benchmarks with five vision-only tasks and through real-world robot deployment using limited data. It demonstrates that our approach significantly improves the generalization of offline policies to unseen safety-constrained scenarios. To the best of our knowledge, this is the first work to explore offline-to-online RL for safe generalization tasks.
- Abstract(参考訳): オフラインセーフ強化学習(RL)は、静的データセットから学習し、探索を制限することで、安全性の制約に対処することを目指している。
しかし、これらのアプローチはデータセットに大きく依存しており、見つからないシナリオを安全に一般化するのに苦労している。
本稿では、オフライン事前学習ポリシーをオンラインで微調整することで、視覚に基づくロボットタスクの展開時の安全性向上を図る。
効率的な微調整を容易にするために,そのデータ効率で知られているモデルベースRLを導入する。
特に,本手法では,安全確保のための到達性ガイダンスを取り入れつつ,オフライントレーニング効率を向上させるためにサンプル内最適化を採用している。
オフラインの安全なポリシーを得た後、安全なポリシー拡張アプローチがオンラインの微調整に活用される。
本手法の性能は,5つの視覚のみのタスクと,限られたデータを用いた実世界のロボット配置によるシミュレーションベンチマークで検証された。
本手法は, 安全制約のないシナリオに対して, オフラインポリシーの一般化を著しく改善することを示す。
我々の知る限りでは、これは安全な一般化タスクのためにオフラインからオンラインまでのRLを探索する最初の試みである。
関連論文リスト
- Reward-Safety Balance in Offline Safe RL via Diffusion Regularization [16.5825143820431]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - OASIS: Conditional Distribution Shaping for Offline Safe Reinforcement Learning [30.540598779743455]
オフライン安全な強化学習(RL)は、事前コンパイルされたデータセットを使用して制約を満たすポリシーをトレーニングすることを目的としている。
本稿では、これらの限界を克服するために、オフラインセーフなRLに新たなパラダイムを導入する。
提案手法は,効率的なデータ利用と正規化手法により,安全制約を遵守する。
論文 参考訳(メタデータ) (2024-07-19T20:15:00Z) - Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。