論文の概要: Reward-Preserving Attacks For Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.07118v1
- Date: Mon, 12 Jan 2026 01:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.167692
- Title: Reward-Preserving Attacks For Robust Reinforcement Learning
- Title(参考訳): ロバスト強化学習のためのリワード保存攻撃
- Authors: Lucas Schott, Elies Gherbi, Hatem Hajri, Sylvain Lamprier,
- Abstract要約: 摂動が全軌道に影響を及ぼすため、RLのアドリヤロバスト性は困難である。
この攻撃は敵の強みに適応し、各状態において名目対ウォーストケースのリターンギャップの$$分の1が達成可能となるよう提案する。
- 参考スコア(独自算出の注目度): 9.789470811450673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial robustness in RL is difficult because perturbations affect entire trajectories: strong attacks can break learning, while weak attacks yield little robustness, and the appropriate strength varies by state. We propose $α$-reward-preserving attacks, which adapt the strength of the adversary so that an $α$ fraction of the nominal-to-worst-case return gap remains achievable at each state. In deep RL, we use a gradient-based attack direction and learn a state-dependent magnitude $η\le η_{\mathcal B}$ selected via a critic $Q^π_α((s,a),η)$ trained off-policy over diverse radii. This adaptive tuning calibrates attack strength and, with intermediate $α$, improves robustness across radii while preserving nominal performance, outperforming fixed- and random-radius baselines.
- Abstract(参考訳): 強い攻撃は学習を損なうが、弱い攻撃はほとんど堅牢性を持たず、適切な強さは状態によって異なる。
この攻撃は敵の強みに適応し、各状態において名目対ウォーストケースのリターンギャップの$α$分の1が達成可能となるよう、$α$-reward-serving attackを提案する。
深いRLでは、勾配に基づく攻撃方向を用いて、様々なラジイ上で訓練されたオフポリティクスにより選択された状態依存度$η\le η_{\mathcal B}$を学習する。
このアダプティブチューニングは攻撃強度を校正し、中間の$α$でラディウス全体のロバスト性を向上し、名目性能を維持し、固定およびランダムなラディウスベースラインを上回っている。
関連論文リスト
- Distributionally Robust Self Paced Curriculum Reinforcement Learning [42.51809641161819]
分散ロバストな自己適用型カリキュラム強化学習(DR-SPCRL)を提案する。
DR-SPCRLはエージェントの進捗に応じてロバストネス予算を適応的にスケジュールし、名目とロバストパフォーマンスのバランスを可能にする。
複数の環境にまたがる実験結果から,DR-SPCRLはトレーニングを安定させるだけでなく,優れたロバスト性-性能トレードオフを実現することが示された。
論文 参考訳(メタデータ) (2025-11-07T20:25:43Z) - Beyond Worst-case Attacks: Robust RL with Adaptive Defense via
Non-dominated Policies [42.709038827974375]
我々は、よく受け入れられた国家アドリアック・アタック・モデルの下で、政策の堅牢性について研究する。
本稿では,テクティトノン非推奨ポリシーを反復的に発見するための新しい学習時間アルゴリズムを提案する。
Mujoco subroutineの実証検証は、自然および堅牢な性能の観点から、我々のアプローチの優位性を裏付けるものである。
論文 参考訳(メタデータ) (2024-02-20T02:45:20Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。