論文の概要: Test Where Decisions Matter: Importance-driven Testing for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.07700v1
- Date: Tue, 12 Nov 2024 10:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:20:48.343006
- Title: Test Where Decisions Matter: Importance-driven Testing for Deep Reinforcement Learning
- Title(参考訳): 決定が重要であるテスト: 深層強化学習における重要度駆動テスト
- Authors: Stefan Pranger, Hana Chockler, Martin Tappler, Bettina Könighofer,
- Abstract要約: 多くのDeep Reinforcement Learning (RL) 問題では、トレーニングされたポリシーにおける決定は、ポリシーの期待される安全性と性能において重要である。
状態空間全体にわたる状態重要度ランキングを厳格に計算する新しいモデルベース手法を提案する。
次に、最もランクの高い州にテストの取り組みを集中させます。
- 参考スコア(独自算出の注目度): 7.0247398611254175
- License:
- Abstract: In many Deep Reinforcement Learning (RL) problems, decisions in a trained policy vary in significance for the expected safety and performance of the policy. Since RL policies are very complex, testing efforts should concentrate on states in which the agent's decisions have the highest impact on the expected outcome. In this paper, we propose a novel model-based method to rigorously compute a ranking of state importance across the entire state space. We then focus our testing efforts on the highest-ranked states. In this paper, we focus on testing for safety. However, the proposed methods can be easily adapted to test for performance. In each iteration, our testing framework computes optimistic and pessimistic safety estimates. These estimates provide lower and upper bounds on the expected outcomes of the policy execution across all modeled states in the state space. Our approach divides the state space into safe and unsafe regions upon convergence, providing clear insights into the policy's weaknesses. Two important properties characterize our approach. (1) Optimal Test-Case Selection: At any time in the testing process, our approach evaluates the policy in the states that are most critical for safety. (2) Guaranteed Safety: Our approach can provide formal verification guarantees over the entire state space by sampling only a fraction of the policy. Any safety properties assured by the pessimistic estimate are formally proven to hold for the policy. We provide a detailed evaluation of our framework on several examples, showing that our method discovers unsafe policy behavior with low testing effort.
- Abstract(参考訳): 多くのDeep Reinforcement Learning (RL) 問題では、トレーニングされたポリシーにおける決定は、ポリシーの期待される安全性と性能において重要である。
RLポリシーは非常に複雑であるため、テストの取り組みはエージェントの決定が期待される結果に最も影響を与える状態に集中する必要がある。
本稿では,状態空間全体にわたる状態重要度ランキングを厳格に計算する新しいモデルベース手法を提案する。
次に、最もランクの高い州にテストの取り組みを集中させます。
本稿では,安全性試験に焦点をあてる。
しかし,提案手法は性能試験に容易に適応できる。
各イテレーションにおいて、我々のテストフレームワークは楽観的で悲観的な安全性見積を計算します。
これらの見積もりは、状態空間のすべてのモデル化された状態におけるポリシー実行の期待される結果について、下限と上限を提供する。
我々のアプローチは、状態空間を収束時に安全で安全でない領域に分割し、政策の弱点について明確な洞察を与える。
2つの重要な特性が我々のアプローチを特徴づけている。
1) 最適なテストケース選択: テストプロセスにおいて, 安全に最も重要な州における政策を評価する。
2) 安全保証:我々のアプローチは,政策のごく一部をサンプリングすることで,州全体の公式な検証保証を提供することができる。
悲観的な推定によって保証されるあらゆる安全特性は、この政策を正式に維持することが証明される。
提案手法は, 安全性の低い政策行動が検出できることを実証し, フレームワークの詳細な評価を行った。
関連論文リスト
- Decision-Point Guided Safe Policy Improvement [22.885394395400592]
決定点RL(Decision Points RL、DPRL)は、改善のために考慮される状態-作用対(または連続状態の領域)のセットを制限するアルゴリズムである。
DPRLは、密接な訪問国からのデータを活用しながら、密接な訪問国における高信頼の向上を保証する。
論文 参考訳(メタデータ) (2024-10-12T04:05:56Z) - CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。