論文の概要: Safe Reinforcement Learning with Minimal Supervision
- arxiv url: http://arxiv.org/abs/2501.04481v1
- Date: Wed, 08 Jan 2025 13:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:42.909006
- Title: Safe Reinforcement Learning with Minimal Supervision
- Title(参考訳): 最小限のスーパービジョンによる安全強化学習
- Authors: Alexander Quessy, Thomas Richardson, Sebastian East,
- Abstract要約: 実世界での強化学習(RL)は、エージェントが自分自身や他人に害を与えずに探索できる手順を必要とする。
安全なRLの問題に対する最も成功したソリューションは、オフラインデータを利用して安全なセットを学び、安全なオンライン探索を可能にします。
本稿では,初期安全学習問題をオフラインで学習するためのデータ量と質が,オンライン上での安全RLポリシーの学習能力に与える影響について検討する。
- 参考スコア(独自算出の注目度): 45.44831696628473
- License:
- Abstract: Reinforcement learning (RL) in the real world necessitates the development of procedures that enable agents to explore without causing harm to themselves or others. The most successful solutions to the problem of safe RL leverage offline data to learn a safe-set, enabling safe online exploration. However, this approach to safe-learning is often constrained by the demonstrations that are available for learning. In this paper we investigate the influence of the quantity and quality of data used to train the initial safe learning problem offline on the ability to learn safe-RL policies online. Specifically, we focus on tasks with spatially extended goal states where we have few or no demonstrations available. Classically this problem is addressed either by using hand-designed controllers to generate data or by collecting user-generated demonstrations. However, these methods are often expensive and do not scale to more complex tasks and environments. To address this limitation we propose an unsupervised RL-based offline data collection procedure, to learn complex and scalable policies without the need for hand-designed controllers or user demonstrations. Our research demonstrates the significance of providing sufficient demonstrations for agents to learn optimal safe-RL policies online, and as a result, we propose optimistic forgetting, a novel online safe-RL approach that is practical for scenarios with limited data. Further, our unsupervised data collection approach highlights the need to balance diversity and optimality for safe online exploration.
- Abstract(参考訳): 実世界での強化学習(Reinforcement Learning, RL)は、エージェントが自分自身や他人に害を与えずに探索できる手順の開発を必要とする。
安全なRLの問題に対する最も成功したソリューションは、オフラインデータを利用して安全なセットを学び、安全なオンライン探索を可能にします。
しかしながら、セーフラーニングに対するこのアプローチは、学習に利用可能なデモによって制約されることが多い。
本稿では,初期安全学習問題をオフラインで学習するためのデータ量と質が,オンライン上での安全RLポリシーの学習能力に与える影響について検討する。
具体的には、デモがほとんど、あるいは全くない空間的に拡張された目標状態のタスクに焦点を合わせます。
古典的には、この問題は手作りのコントローラを使ってデータを生成するか、ユーザ生成のデモを収集することによって解決される。
しかし、これらの手法は高価であり、より複雑なタスクや環境にスケールしないことが多い。
この制限に対処するために、手書きのコントローラやユーザデモを必要とせず、複雑でスケーラブルなポリシーを学ぶために、教師なしのRLベースのオフラインデータ収集手順を提案する。
本研究は, エージェントが最適安全RLポリシーをオンラインで学習する上で, 十分なデモンストレーションを提供することの重要性を実証するものである。
さらに、教師なしのデータ収集アプローチは、安全なオンライン探索のための多様性と最適性のバランスを取る必要性を強調しています。
関連論文リスト
- Reward-Safety Balance in Offline Safe RL via Diffusion Regularization [16.5825143820431]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。