論文の概要: Don't do it: Safer Reinforcement Learning With Rule-based Guidance
- arxiv url: http://arxiv.org/abs/2212.13819v1
- Date: Wed, 28 Dec 2022 13:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:19:28.750970
- Title: Don't do it: Safer Reinforcement Learning With Rule-based Guidance
- Title(参考訳): やめて - ルールベースのガイダンスによる強化学習を推奨する
- Authors: Ekaterina Nikonova, Cheng Xue, Jochen Renz
- Abstract要約: 訓練中、強化学習システムは行動の安全性を考慮せずに世界と対話する。
本稿では,安全ルールを用いて,安全でないと判断されたエージェントの行動をオーバーライドする新しい安全エプシロングレーディアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During training, reinforcement learning systems interact with the world
without considering the safety of their actions. When deployed into the real
world, such systems can be dangerous and cause harm to their surroundings.
Often, dangerous situations can be mitigated by defining a set of rules that
the system should not violate under any conditions. For example, in robot
navigation, one safety rule would be to avoid colliding with surrounding
objects and people. In this work, we define safety rules in terms of the
relationships between the agent and objects and use them to prevent
reinforcement learning systems from performing potentially harmful actions. We
propose a new safe epsilon-greedy algorithm that uses safety rules to override
agents' actions if they are considered to be unsafe. In our experiments, we
show that a safe epsilon-greedy policy significantly increases the safety of
the agent during training, improves the learning efficiency resulting in much
faster convergence, and achieves better performance than the base model.
- Abstract(参考訳): 訓練中、強化学習システムは行動の安全性を考慮せずに世界と対話する。
現実世界に配備されると、そのようなシステムは危険であり、環境に害を与える可能性がある。
しばしば危険な状況は、システムがいかなる条件の下でも違反すべきでない一連のルールを定義することで軽減される。
例えば、ロボットナビゲーションでは、周囲の物体や人と衝突しないようにする安全ルールがある。
本研究では,エージェントとオブジェクトの関係の観点から安全ルールを定義し,強化学習システムが潜在的に有害な行動を起こすことを防止する。
本稿では,安全ルールを用いて,安全でないと判断されたエージェントの行動をオーバーライドする新しい安全エプシロングレーディアルゴリズムを提案する。
実験の結果, 安全エプシロングレーディポリシはトレーニング中のエージェントの安全性を著しく向上させ, 学習効率を向上し, 収束がより早くなり, ベースモデルよりも優れた性能が得られることがわかった。
関連論文リスト
- Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - SAFE-GIL: SAFEty Guided Imitation Learning for Robotic Systems [15.782203322922017]
安全に配慮した行動クローニングポリシーを学習するための設計時手法であるSAFE-GILを提案する。
我々は,データ収集中にシステム内の敵対的障害を注入し,専門家を安全クリティカルな状態へ誘導する。
この障害注入は、システムがテスト時に遭遇する可能性のある潜在的なポリシーエラーをシミュレートする。
論文 参考訳(メタデータ) (2024-04-08T07:25:25Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Reinforcement Learning by Guided Safe Exploration [11.14908712905592]
エージェント(ガイド)が報酬信号なしで安全に探索することを学習する,制約付き報酬のない設定について考察する。
このエージェントは制御された環境で訓練され、安全でない相互作用を可能にし、安全信号を提供する。
また,学生が信頼できない間に対象方針を定式化し,ガイドの影響を徐々に排除する。
論文 参考訳(メタデータ) (2023-07-26T17:26:21Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - How to Learn from Risk: Explicit Risk-Utility Reinforcement Learning for
Efficient and Safe Driving Strategies [1.496194593196997]
本稿では,自動運転車の挙動を安全かつ効率的に解釈できるSafeDQNを提案する。
SafeDQNは様々なシナリオの解釈可能かつ安全な運転ポリシーを発見し、最先端の衛生技術がリスクと実用性の両方を評価するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-03-16T05:51:22Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention [17.017957942831938]
強化学習(RL)における安全な学習に取り組むための現在のアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
我々は、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを導入する。
我々のアプローチは、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを使用する。
論文 参考訳(メタデータ) (2021-10-27T14:35:00Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。