論文の概要: Online Nonstochastic Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.17552v1
- Date: Sat, 27 May 2023 19:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:27:03.153697
- Title: Online Nonstochastic Model-Free Reinforcement Learning
- Title(参考訳): オンライン非定型モデルフリー強化学習
- Authors: Udaya Ghai, Arushi Gupta, Wenhan Xia, Karan Singh, Elad Hazan
- Abstract要約: 動的ロバスト性や敵意のある環境に対するモデルなし強化学習アルゴリズムを提供する。
次に、敵の障害に対する強化学習エージェントのオンライン適応の課題について検討する。
- 参考スコア(独自算出の注目度): 47.87922694527346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore robust model-free reinforcement learning algorithms
for environments that may be dynamic or even adversarial. Conventional
state-based policies fail to accommodate the challenge imposed by the presence
of unmodeled disturbances in such settings. Additionally, optimizing linear
state-based policies pose obstacle for efficient optimization, leading to
nonconvex objectives even in benign environments like linear dynamical systems.
Drawing inspiration from recent advancements in model-based control, we
introduce a novel class of policies centered on disturbance signals. We define
several categories of these signals, referred to as pseudo-disturbances, and
corresponding policy classes based on them. We provide efficient and practical
algorithms for optimizing these policies.
Next, we examine the task of online adaptation of reinforcement learning
agents to adversarial disturbances. Our methods can be integrated with any
black-box model-free approach, resulting in provable regret guarantees if the
underlying dynamics is linear. We evaluate our method over different standard
RL benchmarks and demonstrate improved robustness.
- Abstract(参考訳): 本研究では,動的あるいは逆向きな環境に対する頑健なモデルフリー強化学習アルゴリズムについて検討する。
従来の州ベースの政策は、そのような状況において、非モデル化された乱れの存在によって課される課題に適合しない。
さらに、線形状態ベースのポリシーの最適化は効率的な最適化の障害となり、線形力学系のような良質な環境でも非凸目的が達成される。
モデルベース制御の最近の進歩から着想を得て,外乱信号に着目した新しい手法を提案する。
我々はこれらの信号のいくつかのカテゴリを定義し、これらに基づいて擬似障害と対応するポリシークラスを定義した。
これらのポリシーを最適化するための効率的で実用的なアルゴリズムを提供する。
次に、敵の障害に対する強化学習エージェントのオンライン適応の課題について検討する。
我々の手法は任意のブラックボックスのモデルフリーアプローチと統合でき、基盤となるダイナミクスが線形であれば後悔の保証ができる。
提案手法を標準RLベンチマークで評価し,ロバスト性の向上を実証した。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。