論文の概要: xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability
- arxiv url: http://arxiv.org/abs/2412.19311v1
- Date: Thu, 26 Dec 2024 18:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:35.063695
- Title: xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability
- Title(参考訳): xSRL: 説明可能な強化学習の安全性 - 説明可能性の産物としての安全性
- Authors: Risal Shahriar Shefin, Md Asifur Rahman, Thai Le, Sarra Alqahtani,
- Abstract要約: 我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
- 参考スコア(独自算出の注目度): 8.016667413960995
- License:
- Abstract: Reinforcement learning (RL) has shown great promise in simulated environments, such as games, where failures have minimal consequences. However, the deployment of RL agents in real-world systems such as autonomous vehicles, robotics, UAVs, and medical devices demands a higher level of safety and transparency, particularly when facing adversarial threats. Safe RL algorithms have been developed to address these concerns by optimizing both task performance and safety constraints. However, errors are inevitable, and when they occur, it is essential that the RL agents can also explain their actions to human operators. This makes trust in the safety mechanisms of RL systems crucial for effective deployment. Explainability plays a key role in building this trust by providing clear, actionable insights into the agent's decision-making process, ensuring that safety-critical decisions are well understood. While machine learning (ML) has seen significant advances in interpretability and visualization, explainability methods for RL remain limited. Current tools fail to address the dynamic, sequential nature of RL and its needs to balance task performance with safety constraints over time. The re-purposing of traditional ML methods, such as saliency maps, is inadequate for safety-critical RL applications where mistakes can result in severe consequences. To bridge this gap, we propose xSRL, a framework that integrates both local and global explanations to provide a comprehensive understanding of RL agents' behavior. xSRL also enables developers to identify policy vulnerabilities through adversarial attacks, offering tools to debug and patch agents without retraining. Our experiments and user studies demonstrate xSRL's effectiveness in increasing safety in RL systems, making them more reliable and trustworthy for real-world deployment. Code is available at https://github.com/risal-shefin/xSRL.
- Abstract(参考訳): 強化学習(RL)は、失敗が最小限の結果をもたらすゲームのようなシミュレーション環境において大きな可能性を示してきた。
しかしながら、自動運転車、ロボティクス、UAV、医療機器などの現実のシステムにRLエージェントが配備されるためには、特に敵の脅威に直面している場合、より高いレベルの安全性と透明性が必要である。
安全なRLアルゴリズムは、タスク性能と安全性の制約の両方を最適化することで、これらの問題に対処するために開発された。
しかしながら、エラーは避けられないものであり、それらが発生した場合、RLエージェントは人間のオペレーターにその動作を説明することも必要不可欠である。
これにより、RLシステムの安全メカニズムを効果的に展開するために重要なものにする。
説明可能性(Explainability)は、エージェントの意思決定プロセスに対する明確で実用的な洞察を提供することによって、この信頼を構築する上で重要な役割を担います。
機械学習(ML)は解釈可能性と可視化に大きな進歩を遂げているが、RLの説明可能性法は依然として限られている。
現在のツールは、RLの動的でシーケンシャルな性質と、タスクパフォーマンスと時間とともに安全上の制約をバランスさせる必要性に対処できない。
サリエンシマップのような従来のML手法の再利用は、ミスが深刻な結果をもたらすような安全クリティカルなRLアプリケーションには不十分である。
このギャップを埋めるため、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
コードはhttps://github.com/risal-shefin/xSRLで公開されている。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Constraint-Guided Reinforcement Learning: Augmenting the
Agent-Environment-Interaction [10.203602318836445]
強化学習(RL)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
本稿では,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントのエンジニアリングについて論じる。
その結果、制約ガイダンスは信頼性の向上と安全な行動を提供するだけでなく、トレーニングを加速する。
論文 参考訳(メタデータ) (2021-04-24T10:04:14Z) - Assured Learning-enabled Autonomy: A Metacognitive Reinforcement
Learning Framework [4.427447378048202]
事前指定された報酬機能を持つ強化学習(rl)エージェントは、さまざまな状況で安全性を保証できない。
本稿では,メタ認知学習機能を備えたRLアルゴリズムを用いて,自律制御フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-23T14:01:35Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。