論文の概要: Certifiably Robust Reinforcement Learning through Model-Based Abstract
Interpretation
- arxiv url: http://arxiv.org/abs/2301.11374v2
- Date: Fri, 26 May 2023 21:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:08:42.555010
- Title: Certifiably Robust Reinforcement Learning through Model-Based Abstract
Interpretation
- Title(参考訳): モデルに基づく抽象解釈によるロバスト強化学習
- Authors: Chenxi Yang, Greg Anderson, Swarat Chaudhuri
- Abstract要約: 本稿では,機械チェック可能な正逆性証明を備えた強化学習フレームワークを提案する。
連続状態と動作空間を有する4つのMuJoCo環境上でCAROLを実験的に評価した。
CAROLは、最先端のロバストなRLアルゴリズムのポリシーと対照的に、 (i) 証明されたパフォーマンスの低いバウンドを著しく強化し、 (ii) 経験的な敵攻撃下での同等のパフォーマンスを示すポリシーを学習する。
- 参考スコア(独自算出の注目度): 10.69970450827617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a reinforcement learning (RL) framework in which the learned
policy comes with a machine-checkable certificate of provable adversarial
robustness. Our approach, called CAROL, learns a model of the environment. In
each learning iteration, it uses the current version of this model and an
external abstract interpreter to construct a differentiable signal for provable
robustness. This signal is used to guide learning, and the abstract
interpretation used to construct it directly leads to the robustness
certificate returned at convergence. We give a theoretical analysis that bounds
the worst-case accumulative reward of CAROL. We also experimentally evaluate
CAROL on four MuJoCo environments with continuous state and action spaces. On
these tasks, CAROL learns policies that, when contrasted with policies from the
state-of-the-art robust RL algorithms, exhibit: (i) markedly enhanced certified
performance lower bounds; and (ii) comparable performance under empirical
adversarial attacks.
- Abstract(参考訳): 本稿では,学習方針が証明可能な対向ロバスト性の機械チェック可能な証明書を付与する強化学習(rl)フレームワークを提案する。
我々のアプローチはCAROLと呼ばれ、環境のモデルを学ぶ。
各学習イテレーションでは、このモデルの現行バージョンと外部抽象インタプリタを使用して、証明可能な堅牢性のための識別可能な信号を構築する。
この信号は学習のガイドに使われ、それを構成するのに使用される抽象的な解釈は収束時に返される堅牢性証明書に繋がる。
我々は、CAROLの最悪の累積報酬を束縛する理論的解析を行う。
また,連続状態と動作空間を有する4つの MuJoCo 環境上で CAROL を実験的に評価した。
これらのタスクにおいて、CAROLは、最先端のロバストなRLアルゴリズムのポリシーと対照的なポリシーを学ぶ。
(i)認定性能を著しく向上させたこと、及び
(ii)経験的敵意攻撃における同等のパフォーマンス。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。