論文の概要: Policy Optimization with Robustness Certificates
- arxiv url: http://arxiv.org/abs/2301.11374v1
- Date: Thu, 26 Jan 2023 19:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:25:43.701236
- Title: Policy Optimization with Robustness Certificates
- Title(参考訳): ロバストネス証明書による政策最適化
- Authors: Chenxi Yang, Greg Anderson, Swarat Chaudhuri
- Abstract要約: 本稿では,学習したポリシに,機械チェック可能な対向ロバスト性の証明が付属するポリシ最適化フレームワークを提案する。
各学習イテレーションでは、このモデルの現行バージョンと外部抽象インタプリタを使用して、証明可能な堅牢性のための識別可能な信号を構築する。
このシグナルは政策学習のガイドに使われ、それを構成するのに使用される抽象的な解釈は、収束境界で返されるロバスト性証明に導かれる。
- 参考スコア(独自算出の注目度): 10.69970450827617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a policy optimization framework in which the learned policy comes
with a machine-checkable certificate of adversarial robustness. Our approach,
called CAROL, learns a model of the environment. In each learning iteration, it
uses the current version of this model and an external abstract interpreter to
construct a differentiable signal for provable robustness. This signal is used
to guide policy learning, and the abstract interpretation used to construct it
directly leads to the robustness certificate returned at convergence. We give a
theoretical analysis that bounds the worst-case accumulative reward of CAROL.
We also experimentally evaluate CAROL on four MuJoCo environments. On these
tasks, which involve continuous state and action spaces, CAROL learns certified
policies that have performance comparable to the (non-certified) policies
learned using state-of-the-art robust RL methods.
- Abstract(参考訳): 本稿では,学習したポリシが機械チェック可能な対向ロバスト性証明書を付与するポリシ最適化フレームワークを提案する。
我々のアプローチはCAROLと呼ばれ、環境のモデルを学ぶ。
各学習イテレーションでは、このモデルの現行バージョンと外部抽象インタプリタを使用して、証明可能な堅牢性のための識別可能な信号を構築する。
このシグナルはポリシー学習のガイドとして使われ、その構築に使用される抽象的な解釈は、収束時に返される堅牢性証明書に繋がる。
我々は、CAROLの最悪の累積報酬を束縛する理論的解析を行う。
また,4つのMuJoCo環境におけるCAROLを実験的に評価した。
連続状態とアクション空間を含むこれらのタスクにおいて、CAROLは、最先端のロバストなRL手法を用いて学んだ(認定されていない)ポリシーに匹敵するパフォーマンスを持つ認定されたポリシーを学ぶ。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。