論文の概要: Online Nonstochastic Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.17552v2
- Date: Tue, 31 Oct 2023 20:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:43:16.312299
- Title: Online Nonstochastic Model-Free Reinforcement Learning
- Title(参考訳): オンライン非定型モデルフリー強化学習
- Authors: Udaya Ghai, Arushi Gupta, Wenhan Xia, Karan Singh, Elad Hazan
- Abstract要約: 本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
- 参考スコア(独自算出の注目度): 35.377261344335736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate robust model-free reinforcement learning algorithms designed
for environments that may be dynamic or even adversarial. Traditional
state-based policies often struggle to accommodate the challenges imposed by
the presence of unmodeled disturbances in such settings. Moreover, optimizing
linear state-based policies pose an obstacle for efficient optimization,
leading to nonconvex objectives, even in benign environments like linear
dynamical systems.
Drawing inspiration from recent advancements in model-based control, we
introduce a novel class of policies centered on disturbance signals. We define
several categories of these signals, which we term pseudo-disturbances, and
develop corresponding policy classes based on them. We provide efficient and
practical algorithms for optimizing these policies.
Next, we examine the task of online adaptation of reinforcement learning
agents in the face of adversarial disturbances. Our methods seamlessly
integrate with any black-box model-free approach, yielding provable regret
guarantees when dealing with linear dynamics. These regret guarantees
unconditionally improve the best-known results for bandit linear control in
having no dependence on the state-space dimension. We evaluate our method over
various standard RL benchmarks and demonstrate improved robustness.
- Abstract(参考訳): 動的あるいは逆向きな環境向けに設計された頑健なモデルフリー強化学習アルゴリズムについて検討する。
伝統的な国家ベースの政策は、そのような状況下では、非モデル化された障害の存在によって課される課題に対応するのにしばしば苦労する。
さらに、線形状態に基づくポリシーの最適化は効率的な最適化の障害となり、線形力学系のような良質な環境においても非凸目的に繋がる。
モデルベース制御の最近の進歩から着想を得て,外乱信号に着目した新しい手法を提案する。
我々はこれらの信号のいくつかのカテゴリを定義し、擬似障害と呼び、それに基づいて対応するポリシークラスを開発する。
これらのポリシーを最適化するための効率的で実用的なアルゴリズムを提供する。
次に,敵対的障害に直面した強化学習エージェントのオンライン適応の課題について検討する。
提案手法は,任意のブラックボックスモデルフリーアプローチとシームレスに統合し,線形力学を扱う場合の後悔の保証を与える。
これらの後悔は、状態空間次元に依存しないバンディット線形制御の最もよく知られた結果を無条件に改善することを保証する。
本手法を各種標準RLベンチマークで評価し,ロバスト性の向上を実証した。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。