論文の概要: Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach
- arxiv url: http://arxiv.org/abs/2410.10674v1
- Date: Mon, 14 Oct 2024 16:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:15:14.976541
- Title: Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach
- Title(参考訳): 深層強化学習におけるロバスト性向上:リャプノフ指数的アプローチ
- Authors: Rory Young, Nicolas Pugeault,
- Abstract要約: 本稿では,決定論的連続制御タスクにおいて,深部RLポリシーの単一状態への摂動について検討する。
システム状態に対する小さな摂動がその後の状態と報酬軌道に大きな影響を与えるため、RLポリシーは決定論的に混同される可能性があることを示す。
本稿では,最大リアプノフ指数正規化を実装したDreamer V3アーキテクチャの改良を提案する。
- 参考スコア(独自算出の注目度): 1.519321208145928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning agents achieve state-of-the-art performance in a wide range of simulated control tasks. However, successful applications to real-world problems remain limited. One reason for this dichotomy is because the learned policies are not robust to observation noise or adversarial attacks. In this paper, we investigate the robustness of deep RL policies to a single small state perturbation in deterministic continuous control tasks. We demonstrate that RL policies can be deterministically chaotic as small perturbations to the system state have a large impact on subsequent state and reward trajectories. This unstable non-linear behaviour has two consequences: First, inaccuracies in sensor readings, or adversarial attacks, can cause significant performance degradation; Second, even policies that show robust performance in terms of rewards may have unpredictable behaviour in practice. These two facets of chaos in RL policies drastically restrict the application of deep RL to real-world problems. To address this issue, we propose an improvement on the successful Dreamer V3 architecture, implementing a Maximal Lyapunov Exponent regularisation. This new approach reduces the chaotic state dynamics, rendering the learnt policies more resilient to sensor noise or adversarial attacks and thereby improving the suitability of Deep Reinforcement Learning for real-world applications.
- Abstract(参考訳): 深層強化学習エージェントは、幅広いシミュレートされた制御タスクにおいて最先端の性能を達成する。
しかし、実世界の問題に対する成功例は依然として限られている。
この二分法が原因の1つは、学習された方針が騒音や敵の攻撃を観測するのに堅牢でないからである。
本稿では,決定論的連続制御タスクにおける1つの小状態摂動に対する深いRLポリシーの堅牢性について検討する。
システム状態に対する小さな摂動がその後の状態と報酬軌道に大きな影響を与えるため、RLポリシーは決定論的に混同される可能性があることを実証する。
不安定な非線形動作には2つの結果がある: まず、センサーの読み取りの不正確さ、または敵の攻撃は、大きなパフォーマンス劣化を引き起こす。
RL政策におけるカオスの2つの側面は、現実世界の問題への深いRLの適用を劇的に制限している。
この問題に対処するため,我々は,最大リアプノフ指数正規化を実装したDreamer V3アーキテクチャの改良を提案する。
この新しいアプローチはカオス状態のダイナミクスを減らし、センサノイズや敵攻撃に対してより回復力のある学習ポリシーを描画し、現実世界のアプリケーションに対するDeep Reinforcement Learningの適合性を向上させる。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Constrained Reinforcement Learning for Continuous Control with
Model Misspecification [26.488582821511972]
現実世界のシステムは、非定常性、摩耗・摩耗、未校正センサーなどの影響を受けやすい。
このような効果は、システムダイナミクスを効果的に摂動させ、同じドメインの摂動バージョンにデプロイすると、あるドメインでトレーニングされたポリシーがうまく動作しないようにする。
これは、将来の報酬を最大化する政策の能力と、それが制約を満たす範囲に影響を与える可能性がある。
実世界強化学習(Real World Reinforcement Learning, RWRL)から, この形態の誤特定を軽減し, 実世界強化学習(Real World Reinforcement Learning, RWRL)から複数の模擬Mujocoタスクにその性能を示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-20T22:05:37Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。