論文の概要: Safety Aware Reinforcement Learning (SARL)
- arxiv url: http://arxiv.org/abs/2010.02846v1
- Date: Tue, 6 Oct 2020 16:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:46:25.591343
- Title: Safety Aware Reinforcement Learning (SARL)
- Title(参考訳): 安全意識強化学習(SARL)
- Authors: Santiago Miret, Somdeb Majumdar, Carroll Wainwright
- Abstract要約: 我々は、エージェントが第一のタスクでポリシーを実行しながら、望ましくない副作用を引き起こすことができるシナリオの研究に焦点をあてる。
与えられた環境ダイナミクスに対して複数のタスクを定義することができるので、2つの重要な課題があります。
仮想安全なエージェントが主報酬に基づくエージェントの行動を調整し、副作用を最小限に抑えるためのフレームワークである安全意識強化学習(SARL)を提案する。
- 参考スコア(独自算出の注目度): 4.4617911035181095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As reinforcement learning agents become increasingly integrated into complex,
real-world environments, designing for safety becomes a critical consideration.
We specifically focus on researching scenarios where agents can cause undesired
side effects while executing a policy on a primary task. Since one can define
multiple tasks for a given environment dynamics, there are two important
challenges. First, we need to abstract the concept of safety that applies
broadly to that environment independent of the specific task being executed.
Second, we need a mechanism for the abstracted notion of safety to modulate the
actions of agents executing different policies to minimize their side-effects.
In this work, we propose Safety Aware Reinforcement Learning (SARL) - a
framework where a virtual safe agent modulates the actions of a main
reward-based agent to minimize side effects. The safe agent learns a
task-independent notion of safety for a given environment. The main agent is
then trained with a regularization loss given by the distance between the
native action probabilities of the two agents. Since the safe agent effectively
abstracts a task-independent notion of safety via its action probabilities, it
can be ported to modulate multiple policies solving different tasks within the
given environment without further training. We contrast this with solutions
that rely on task-specific regularization metrics and test our framework on the
SafeLife Suite, based on Conway's Game of Life, comprising a number of complex
tasks in dynamic environments. We show that our solution is able to match the
performance of solutions that rely on task-specific side-effect penalties on
both the primary and safety objectives while additionally providing the benefit
of generalizability and portability.
- Abstract(参考訳): 強化学習エージェントがますます複雑で現実世界の環境に統合されるにつれて、安全のための設計が重要視される。
特に,プライマリタスクのポリシの実行中にエージェントが望ましくない副作用を引き起こすようなシナリオの研究に注目する。
与えられた環境ダイナミクスのために複数のタスクを定義することができるので、2つの重要な課題がある。
まず、実行中の特定のタスクに依存しない環境に広く適用される安全の概念を抽象化する必要があります。
第2に、異なるポリシーを実行するエージェントのアクションを調整し、副作用を最小限に抑えるための安全性という抽象的な概念のメカニズムが必要です。
本研究では,仮想安全エージェントが主報酬に基づくエージェントの行動を調整し,副作用を最小限に抑える枠組みである安全意識強化学習(SARL)を提案する。
安全エージェントは、与えられた環境に対するタスク非依存の安全性の概念を学ぶ。
メインエージェントは、2つのエージェントのネイティブアクション確率間の距離によって与えられる正規化損失で訓練される。
安全エージェントは、その行動確率を介してタスク非依存の安全概念を効果的に抽象化するので、更なる訓練をすることなく、与えられた環境内で異なるタスクを解決する複数のポリシーを調整できる。
これとは対照的に,タスク固有の正規化メトリクスに依存したソリューションと,conwayのgame of lifeに基づいたsafelifeスイート上でのフレームワークのテストでは,動的環境における複雑なタスクが数多く含まれています。
私たちのソリューションは、プライマリとセーフティーの両方の目的に対してタスク固有の副作用のペナルティに依存するソリューションのパフォーマンスにマッチすると同時に、汎用性とポータビリティのメリットも提供しています。
関連論文リスト
- Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Multi-Agent Reinforcement Learning with Control-Theoretic Safety Guarantees for Dynamic Network Bridging [0.11249583407496219]
この研究は、マルチエージェント強化学習と制御理論的手法を統合するハイブリッドアプローチを導入し、安全で効率的な分散戦略を確実にする。
私たちのコントリビューションには、ミッションの目的を損なうことなく、エージェントの位置を動的に調整して安全状態を維持する新しいセットポイント更新アルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-02T01:30:41Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention [17.017957942831938]
強化学習(RL)における安全な学習に取り組むための現在のアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
我々は、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを導入する。
我々のアプローチは、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを使用する。
論文 参考訳(メタデータ) (2021-10-27T14:35:00Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。