論文の概要: Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy
- arxiv url: http://arxiv.org/abs/2412.04426v1
- Date: Thu, 05 Dec 2024 18:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:03.563587
- Title: Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy
- Title(参考訳): Marvel: オフラインポリシによる安全なオンライン強化学習の促進
- Authors: Keru Chen, Honghao Wei, Zhigang Deng, Sen Lin,
- Abstract要約: オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。
我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。
我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 12.589890916332196
- License:
- Abstract: The high costs and risks involved in extensive environment interactions hinder the practical application of current online safe reinforcement learning (RL) methods. While offline safe RL addresses this by learning policies from static datasets, the performance therein is usually limited due to reliance on data quality and challenges with out-of-distribution (OOD) actions. Inspired by recent successes in offline-to-online (O2O) RL, it is crucial to explore whether offline safe RL can be leveraged to facilitate faster and safer online policy learning, a direction that has yet to be fully investigated. To fill this gap, we first demonstrate that naively applying existing O2O algorithms from standard RL would not work well in the safe RL setting due to two unique challenges: \emph{erroneous Q-estimations}, resulted from offline-online objective mismatch and offline cost sparsity, and \emph{Lagrangian mismatch}, resulted from difficulties in aligning Lagrange multipliers between offline and online policies. To address these challenges, we introduce \textbf{Marvel}, a novel framework for O2O safe RL, comprising two key components that work in concert: \emph{Value Pre-Alignment} to align the Q-functions with the underlying truth before online learning, and \emph{Adaptive PID Control} to effectively adjust the Lagrange multipliers during online finetuning. Extensive experiments demonstrate that Marvel significantly outperforms existing baselines in both reward maximization and safety constraint satisfaction. By introducing the first policy-finetuning based framework for O2O safe RL, which is compatible with many offline and online safe RL methods, our work has the great potential to advance the field towards more efficient and practical safe RL solutions.
- Abstract(参考訳): 広範囲にわたる環境相互作用に関わる高コストとリスクは、現在のオンライン安全強化学習(RL)の実践的応用を妨げている。
オフラインセーフなRLは静的データセットからポリシを学ぶことでこの問題に対処するが、そのパフォーマンスは通常、データ品質への依存と、アウト・オブ・ディストリビューション(OOD)アクションによる課題によって制限される。
オフライン・ツー・オンライン(O2O)RLの最近の成功に触発されて、オフライン安全なRLがより高速で安全なオンラインポリシー学習に活用できるかどうかを検討することが重要であり、まだ十分に調査されていない方向である。
このギャップを埋めるために、我々はまず、標準RLから既存のO2Oアルゴリズムを誘導的に適用することは、2つのユニークな課題により安全なRL設定ではうまくいかないことを実証した: オフラインオンラインの客観的なミスマッチとオフラインコストの分散に起因する \emph{erroneous Q-estimations} と、オフラインとオンラインのポリシー間のラグランジュ乗算の整合が困難である \emph{Lagrangian mismatch} である。
これらの課題に対処するために、オンライン学習の前にQ関数を基礎となる真実と整合させる「emph{Value Pre-Alignment}」と、オンライン微調整中にラグランジュ乗算器を効果的に調整する「emph{Adaptive PID Control}」という2つの主要なコンポーネントからなる、O2OセーフなRLのための新しいフレームワークである「textbf{Marvel}」を紹介した。
大規模な実験により、マーベルは報酬の最大化と安全制約満足度の両方において、既存のベースラインを著しく上回っていることが示された。
多くのオフラインおよびオンライン安全なRLメソッドと互換性のある、O2OセーフなRLのための最初のポリシーファインタニングベースのフレームワークを導入することで、我々の研究はより効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
関連論文リスト
- Reward-Safety Balance in Offline Safe RL via Diffusion Regularization [16.5825143820431]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。
アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - On the Statistical Complexity for Offline and Low-Adaptive Reinforcement Learning with Structures [63.36095790552758]
本稿では、オフラインおよび低適応環境における強化学習(RL)の統計的基礎に関する最近の進歩を概観する。
まず最初に、オフラインRLが、RLを使用する最近のAIブレークスルーとは無関係であっても、ほぼすべての実生活のML問題に対して適切なモデルである理由について議論する。
オフラインポリシー評価(OPE)とオフラインポリシー学習(OPL)という,オフラインRLの基本的な2つの問題に展開する。
論文 参考訳(メタデータ) (2025-01-03T20:27:53Z) - Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。