論文の概要: Learning a Shield from Catastrophic Action Effects: Never Repeat the
Same Mistake
- arxiv url: http://arxiv.org/abs/2202.09516v1
- Date: Sat, 19 Feb 2022 03:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:50:20.908878
- Title: Learning a Shield from Catastrophic Action Effects: Never Repeat the
Same Mistake
- Title(参考訳): 破滅的な作用からシールドを学ぶ:同じ間違いを繰り返すことはない
- Authors: Shahaf S. Shperberg, Bo Liu, Peter Stone
- Abstract要約: 我々は,POMDP (POMDP with Catastrophic Actions) と呼ばれるPOMDPのクラスについて考察する。
ミスの繰り返しを避ける最初のステップとして、エージェントが特定の状態から特定のアクションを実行するのを防ぐシールドの概念を活用します。
本論文では,このシールドを用いたPPOアルゴリズムの変種であるShieldPPOを導入し,制御環境で実証的に評価する。
- 参考スコア(独自算出の注目度): 47.289077556180466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents that operate in an unknown environment are bound to make mistakes
while learning, including, at least occasionally, some that lead to
catastrophic consequences. When humans make catastrophic mistakes, they are
expected to learn never to repeat them, such as a toddler who touches a hot
stove and immediately learns never to do so again. In this work we consider a
novel class of POMDPs, called POMDP with Catastrophic Actions (POMDP-CA) in
which pairs of states and actions are labeled as catastrophic. Agents that act
in a POMDP-CA do not have a priori knowledge about which (state, action) pairs
are catastrophic, thus they are sure to make mistakes when trying to learn any
meaningful policy. Rather, their aim is to maximize reward while never
repeating mistakes.
As a first step of avoiding mistake repetition, we leverage the concept of a
shield which prevents agents from executing specific actions from specific
states.
In particular, we store catastrophic mistakes (unsafe pairs of states and
actions) that agents make in a database. Agents are then forbidden to pick
actions that appear in the database. This approach is especially useful in a
continual learning setting, where groups of agents perform a variety of tasks
over time in the same underlying environment. In this setting, a task-agnostic
shield can be constructed in a way that stores mistakes made by any agent, such
that once one agent in a group makes a mistake the entire group learns to never
repeat that mistake. This paper introduces a variant of the PPO algorithm that
utilizes this shield, called ShieldPPO, and empirically evaluates it in a
controlled environment.
Results indicate that ShieldPPO outperforms PPO, as well as baseline methods
from the safe reinforcement learning literature, in a range of settings.
- Abstract(参考訳): 未知の環境で活動するエージェントは、少なくとも時には破滅的な結果をもたらすものを含む、学習中に間違いを犯さなければならない。
人間が破滅的な過ちを犯すと、ホットストーブに触れた幼児のように、二度と繰り返しないことを学ぶことが期待される。
本研究では,pomdp(pomdp-ca)と呼ばれる,状態と動作の対が破壊的(catastrophic)に分類される新しいタイプのpomdpについて考察する。
POMDP-CAで行動するエージェントは、どの(状態、行動)ペアが破滅的であるかについての事前知識を持っていないため、意味のあるポリシーを学習しようとするときに間違いを犯すことは確実である。
むしろ彼らの目標は、ミスを繰り返すことなく、報酬を最大化することです。
ミスの繰り返しを避ける最初のステップとして、エージェントが特定の状態から特定のアクションを実行するのを防ぐシールドの概念を活用します。
特に、エージェントがデータベースで犯す破滅的なミス(危険な状態とアクションのペア)を保存します。
エージェントはデータベースに現れるアクションを選択することを禁止される。
このアプローチは、エージェントのグループが同じ環境下で時間をかけてさまざまなタスクを実行する連続的な学習環境において特に有用である。
この設定では、グループ内の1つのエージェントが一度間違いを犯すと、グループ全体がその間違いを繰り返しないことを学ぶように、任意のエージェントのミスを保存する方法でタスク非依存のシールドを構築することができる。
本論文では,このシールドを用いたPPOアルゴリズムの変種であるShieldPPOを導入し,制御環境で実証的に評価する。
以上の結果から,ShieldPPOは安全強化学習文献のベースライン法とPPOよりも優れた性能を示した。
関連論文リスト
- AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - ACTER: Diverse and Actionable Counterfactual Sequences for Explaining
and Diagnosing RL Policies [2.0341936392563063]
ACTER(Actionable Counterfactual Sequences for Explaining Reinforcement Learning Outcomes)は、反現実列を生成するアルゴリズムである。
本稿では,ACTERが動作可能な多種多様な逆ファクト配列を生成可能であることを示す。
我々は,ACTERが生成した説明が,ユーザによる障害の特定と修正にどのように役立つかを,ユーザスタディで調査する。
論文 参考訳(メタデータ) (2024-02-09T16:12:53Z) - Randomized Confidence Bounds for Stochastic Partial Monitoring [8.649322557020666]
部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
決定論的信頼境界のランダム化に基づく新しいPM戦略のクラスを導入する。
論文 参考訳(メタデータ) (2024-02-07T16:18:59Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - PACOL: Poisoning Attacks Against Continual Learners [1.569413950416037]
本研究では,悪意ある誤報によって連続学習システムを操作できることを実証する。
本稿では,連続学習者を対象としたデータ中毒攻撃の新たなカテゴリについて紹介する。
総合的な実験のセットは、一般的に使われている生成的リプレイと正規化に基づく攻撃方法に対する継続的な学習アプローチの脆弱性を示している。
論文 参考訳(メタデータ) (2023-11-18T00:20:57Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Automata Learning meets Shielding [1.1417805445492082]
安全は、強化学習(RL)における主要な研究課題の1つである。
本稿では,確率的,部分的に未知な環境下での探査において,RLエージェントの安全違反を回避する方法について述べる。
提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的手法で組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-04T14:58:12Z) - How RL Agents Behave When Their Actions Are Modified [0.0]
複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。
本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。
論文 参考訳(メタデータ) (2021-02-15T18:10:03Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。