Fugu-MT 論文翻訳(概要): Robust Deep Reinforcement Learning through Regret Neighborhoods

論文の概要: Robust Deep Reinforcement Learning through Regret Neighborhoods

arxiv url: http://arxiv.org/abs/2302.06912v1
Date: Tue, 14 Feb 2023 08:56:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-15 15:53:20.611934
Title: Robust Deep Reinforcement Learning through Regret Neighborhoods
Title（参考訳）: 後悔地区における強固な深層強化学習
Authors: Roman Belaire, Pradeep Varakantham, David Lo
Abstract要約: 敵の騒音は、安全クリティカルな環境において悲惨な結果をもたらす可能性がある。既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、リアクティブアプローチに重点を置いている。我々は、受信した「観測」に対する観察の「隣人」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。
参考スコア（独自算出の注目度）: 15.640797970707522
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning (DRL) policies have been shown to be vulnerable to small adversarial noise in observations. Such adversarial noise can have disastrous consequences in safety-critical environments. For instance, a self-driving car receiving adversarially perturbed sensory observations about nearby signs (e.g., a stop sign physically altered to be perceived as a speed limit sign) or objects (e.g., cars altered to be recognized as trees) can be fatal. Existing approaches for making RL algorithms robust to an observation-perturbing adversary have focused on reactive approaches that iteratively improve against adversarial examples generated at each iteration. While such approaches have been shown to provide improvements over regular RL methods, they are reactive and can fare significantly worse if certain categories of adversarial examples are not generated during training. To that end, we pursue a more proactive approach that relies on directly optimizing a well-studied robustness measure, regret instead of expected value. We provide a principled approach that minimizes maximum regret over a "neighborhood" of observations to the received "observation". Our regret criterion can be used to modify existing value- and policy-based Deep RL methods. We demonstrate that our approaches provide a significant improvement in performance across a wide variety of benchmarks against leading approaches for robust Deep RL.
Abstract（参考訳）: 深層強化学習(DRL)の政策は、観測において小さな敵対的雑音に弱いことが示されている。このような敵対的ノイズは、安全クリティカルな環境において破滅的な結果をもたらす可能性がある。例えば、近くの標識(例えば、速度制限標識として知覚されるように物理的に変化した停止標識)や物体(例えば、木として認識されるように変更された車)に関する逆向きに乱れた感覚観察を受ける自動運転車は致命的である。既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、各イテレーションで生成された敵の例に対して反復的に改善するリアクティブアプローチに焦点を当てている。このような手法は、通常のRL法よりも改善されていることが示されているが、それらは反応性が高く、訓練中に特定のカテゴリの逆例が生成されない場合、著しく悪化する可能性がある。そのために私たちは,期待値ではなく,十分に検討されたロバストネス尺度を直接最適化する,より積極的なアプローチを追求します。我々は、受信した「観測」に対する観察の「近隣」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。我々の後悔の基準は、既存の値およびポリシーベースのDeep RLメソッドの変更に利用できる。当社のアプローチは,より堅牢なDeep RLに対する主要なアプローチに対して,さまざまなベンチマークで大幅なパフォーマンス向上を実現しています。

関連論文リスト

Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文参考訳（メタデータ） (2025-07-06T17:01:02Z)
Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-26T10:10:41Z)
Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning [18.044879441434432]
自動運転車は、交通標識に関する感覚入力が敵によって操作される場合、破滅的な結果をもたらす可能性がある。このような状況における中核的な課題は、環境の真の状態は、このような敵の操作によって部分的にしか観察できないことである。本稿では,その根底にある真の状態についての信念に基づいて定義された,ACoE(Adversarial Counterfactual Error)という新たな目標を提案する。
論文参考訳（メタデータ） (2024-06-07T08:14:24Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。価値に基づく政策段階の深層強化学習(DRL)について考察する。また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文参考訳（メタデータ） (2021-12-16T16:53:56Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Robust Reinforcement Learning on State Observations with Learned Optimal Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。 DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文参考訳（メタデータ） (2021-01-21T05:38:52Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。