論文の概要: Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy
- arxiv url: http://arxiv.org/abs/2412.04426v1
- Date: Thu, 05 Dec 2024 18:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:03.563587
- Title: Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy
- Title(参考訳): Marvel: オフラインポリシによる安全なオンライン強化学習の促進
- Authors: Keru Chen, Honghao Wei, Zhigang Deng, Sen Lin,
- Abstract要約: オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。
我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。
我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 12.589890916332196
- License:
- Abstract: The high costs and risks involved in extensive environment interactions hinder the practical application of current online safe reinforcement learning (RL) methods. While offline safe RL addresses this by learning policies from static datasets, the performance therein is usually limited due to reliance on data quality and challenges with out-of-distribution (OOD) actions. Inspired by recent successes in offline-to-online (O2O) RL, it is crucial to explore whether offline safe RL can be leveraged to facilitate faster and safer online policy learning, a direction that has yet to be fully investigated. To fill this gap, we first demonstrate that naively applying existing O2O algorithms from standard RL would not work well in the safe RL setting due to two unique challenges: \emph{erroneous Q-estimations}, resulted from offline-online objective mismatch and offline cost sparsity, and \emph{Lagrangian mismatch}, resulted from difficulties in aligning Lagrange multipliers between offline and online policies. To address these challenges, we introduce \textbf{Marvel}, a novel framework for O2O safe RL, comprising two key components that work in concert: \emph{Value Pre-Alignment} to align the Q-functions with the underlying truth before online learning, and \emph{Adaptive PID Control} to effectively adjust the Lagrange multipliers during online finetuning. Extensive experiments demonstrate that Marvel significantly outperforms existing baselines in both reward maximization and safety constraint satisfaction. By introducing the first policy-finetuning based framework for O2O safe RL, which is compatible with many offline and online safe RL methods, our work has the great potential to advance the field towards more efficient and practical safe RL solutions.
- Abstract(参考訳): 広範囲にわたる環境相互作用に関わる高コストとリスクは、現在のオンライン安全強化学習(RL)の実践的応用を妨げている。
オフラインセーフなRLは静的データセットからポリシを学ぶことでこの問題に対処するが、そのパフォーマンスは通常、データ品質への依存と、アウト・オブ・ディストリビューション(OOD)アクションによる課題によって制限される。
オフライン・ツー・オンライン(O2O)RLの最近の成功に触発されて、オフライン安全なRLがより高速で安全なオンラインポリシー学習に活用できるかどうかを検討することが重要であり、まだ十分に調査されていない方向である。
このギャップを埋めるために、我々はまず、標準RLから既存のO2Oアルゴリズムを誘導的に適用することは、2つのユニークな課題により安全なRL設定ではうまくいかないことを実証した: オフラインオンラインの客観的なミスマッチとオフラインコストの分散に起因する \emph{erroneous Q-estimations} と、オフラインとオンラインのポリシー間のラグランジュ乗算の整合が困難である \emph{Lagrangian mismatch} である。
これらの課題に対処するために、オンライン学習の前にQ関数を基礎となる真実と整合させる「emph{Value Pre-Alignment}」と、オンライン微調整中にラグランジュ乗算器を効果的に調整する「emph{Adaptive PID Control}」という2つの主要なコンポーネントからなる、O2OセーフなRLのための新しいフレームワークである「textbf{Marvel}」を紹介した。
大規模な実験により、マーベルは報酬の最大化と安全制約満足度の両方において、既存のベースラインを著しく上回っていることが示された。
多くのオフラインおよびオンライン安全なRLメソッドと互換性のある、O2OセーフなRLのための最初のポリシーファインタニングベースのフレームワークを導入することで、我々の研究はより効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
関連論文リスト
- Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness [11.241036026084222]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。
ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。
本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T04:42:50Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。