論文の概要: Robust Deep Reinforcement Learning through Regret Neighborhoods
- arxiv url: http://arxiv.org/abs/2302.06912v1
- Date: Tue, 14 Feb 2023 08:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:53:20.611934
- Title: Robust Deep Reinforcement Learning through Regret Neighborhoods
- Title(参考訳): 後悔地区における強固な深層強化学習
- Authors: Roman Belaire, Pradeep Varakantham, David Lo
- Abstract要約: 敵の騒音は、安全クリティカルな環境において悲惨な結果をもたらす可能性がある。
既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、リアクティブアプローチに重点を置いている。
我々は、受信した「観測」に対する観察の「隣人」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。
- 参考スコア(独自算出の注目度): 15.640797970707522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) policies have been shown to be vulnerable
to small adversarial noise in observations. Such adversarial noise can have
disastrous consequences in safety-critical environments. For instance, a
self-driving car receiving adversarially perturbed sensory observations about
nearby signs (e.g., a stop sign physically altered to be perceived as a speed
limit sign) or objects (e.g., cars altered to be recognized as trees) can be
fatal. Existing approaches for making RL algorithms robust to an
observation-perturbing adversary have focused on reactive approaches that
iteratively improve against adversarial examples generated at each iteration.
While such approaches have been shown to provide improvements over regular RL
methods, they are reactive and can fare significantly worse if certain
categories of adversarial examples are not generated during training. To that
end, we pursue a more proactive approach that relies on directly optimizing a
well-studied robustness measure, regret instead of expected value. We provide a
principled approach that minimizes maximum regret over a "neighborhood" of
observations to the received "observation". Our regret criterion can be used to
modify existing value- and policy-based Deep RL methods. We demonstrate that
our approaches provide a significant improvement in performance across a wide
variety of benchmarks against leading approaches for robust Deep RL.
- Abstract(参考訳): 深層強化学習(DRL)の政策は、観測において小さな敵対的雑音に弱いことが示されている。
このような敵対的ノイズは、安全クリティカルな環境において破滅的な結果をもたらす可能性がある。
例えば、近くの標識(例えば、速度制限標識として知覚されるように物理的に変化した停止標識)や物体(例えば、木として認識されるように変更された車)に関する逆向きに乱れた感覚観察を受ける自動運転車は致命的である。
既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、各イテレーションで生成された敵の例に対して反復的に改善するリアクティブアプローチに焦点を当てている。
このような手法は、通常のRL法よりも改善されていることが示されているが、それらは反応性が高く、訓練中に特定のカテゴリの逆例が生成されない場合、著しく悪化する可能性がある。
そのために私たちは,期待値ではなく,十分に検討されたロバストネス尺度を直接最適化する,より積極的なアプローチを追求します。
我々は、受信した「観測」に対する観察の「近隣」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。
我々の後悔の基準は、既存の値およびポリシーベースのDeep RLメソッドの変更に利用できる。
当社のアプローチは,より堅牢なDeep RLに対する主要なアプローチに対して,さまざまなベンチマークで大幅なパフォーマンス向上を実現しています。
関連論文リスト
- Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。