論文の概要: Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.15537v1
- Date: Tue, 30 Nov 2021 16:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:54:14.074988
- Title: Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning
- Title(参考訳): 相反強化学習によるモデルフリー$\mu$合成
- Authors: Darioush Keivan, Aaron Havens, Peter Seiler, Geir Dullerud, Bin Hu
- Abstract要約: 静的な$D$-scalingでステートフィードバックの$mu$合成を解くために、よく知られた$DK$-iterationのモデルフリーバージョンを開発する。
提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして、古典的な中央経路アルゴリズムを模倣する。
本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。
- 参考スコア(独自算出の注目度): 2.2725929250900947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the recent empirical success of policy-based reinforcement
learning (RL), there has been a research trend studying the performance of
policy-based RL methods on standard control benchmark problems. In this paper,
we examine the effectiveness of policy-based RL methods on an important robust
control problem, namely $\mu$ synthesis. We build a connection between robust
adversarial RL and $\mu$ synthesis, and develop a model-free version of the
well-known $DK$-iteration for solving state-feedback $\mu$ synthesis with
static $D$-scaling. In the proposed algorithm, the $K$ step mimics the
classical central path algorithm via incorporating a recently-developed
double-loop adversarial RL method as a subroutine, and the $D$ step is based on
model-free finite difference approximation. Extensive numerical study is also
presented to demonstrate the utility of our proposed model-free algorithm. Our
study sheds new light on the connections between adversarial RL and robust
control.
- Abstract(参考訳): 近年,政策ベース強化学習(RL)の実証的成功により,標準制御ベンチマーク問題における政策ベースRL法の性能に関する研究が盛んに行われている。
本稿では,重要なロバスト制御問題である$\mu$ 合成に対するポリシーベースrl法の有効性について検討する。
頑健な逆rlと$\mu$合成の接続を構築し、静的な$d$-scalingでステートフィードバック$\mu$合成を解決するための、よく知られた$dk$-iterationのモデルフリーバージョンを開発します。
提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして組み込んで古典的な中央経路アルゴリズムを模倣し、D$ステップはモデルフリー有限差分近似に基づいている。
また,提案するモデルフリーアルゴリズムの有用性を示すために,広範な数値実験を行った。
本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。
関連論文リスト
- Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning [10.404992912881601]
状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習について検討する。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。
我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文 参考訳(メタデータ) (2024-05-08T23:52:37Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。