論文の概要: Convex Programs and Lyapunov Functions for Reinforcement Learning: A
Unified Perspective on the Analysis of Value-Based Methods
- arxiv url: http://arxiv.org/abs/2202.06922v1
- Date: Mon, 14 Feb 2022 18:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:17:14.411247
- Title: Convex Programs and Lyapunov Functions for Reinforcement Learning: A
Unified Perspective on the Analysis of Value-Based Methods
- Title(参考訳): 強化学習のための凸プログラムとリアプノフ関数--価値ベース手法の分析に関する統一的視点
- Authors: Xingang Guo, Bin Hu
- Abstract要約: 価値に基づく手法はマルコフ決定過程(MDP)と強化学習(RL)において基本的役割を果たす
本稿では、価値計算(VC)、価値反復(VI)、時間差(TD)学習などの価値に基づく手法を統一的に分析するための制御理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.9391112596932243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-based methods play a fundamental role in Markov decision processes
(MDPs) and reinforcement learning (RL). In this paper, we present a unified
control-theoretic framework for analyzing valued-based methods such as value
computation (VC), value iteration (VI), and temporal difference (TD) learning
(with linear function approximation). Built upon an intrinsic connection
between value-based methods and dynamic systems, we can directly use existing
convex testing conditions in control theory to derive various convergence
results for the aforementioned value-based methods. These testing conditions
are convex programs in form of either linear programming (LP) or semidefinite
programming (SDP), and can be solved to construct Lyapunov functions in a
straightforward manner. Our analysis reveals some intriguing connections
between feedback control systems and RL algorithms. It is our hope that such
connections can inspire more work at the intersection of system/control theory
and RL.
- Abstract(参考訳): 価値に基づく手法はマルコフ決定過程(MDP)と強化学習(RL)において基本的な役割を果たす。
本稿では、値計算(VC)、値反復(VI)、時間差学習(TD)といった値に基づく手法を線形関数近似を用いて解析するための統一的な制御理論フレームワークを提案する。
値ベース手法と動的システムとの本質的な接続に基づいて、制御理論において既存の凸試験条件を直接利用して、上記の値ベース手法の様々な収束結果を導出することができる。
これらのテスト条件は、線形プログラミング(LP)または半定値プログラミング(SDP)の形式で凸プログラムであり、簡単にリャプノフ関数を構築することができる。
本稿では,フィードバック制御システムとRLアルゴリズム間の興味深い関係を明らかにする。
このような接続が、システム/制御理論とRLの交わりでより多くの仕事を引き起こすことを願っている。
関連論文リスト
- Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning [10.404992912881601]
状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習について検討する。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Extended Radial Basis Function Controller for Reinforcement Learning [3.42658286826597]
本稿では,モデルベース線形コントローラと任意の微分可能なポリシを動的に補間するハイブリッド強化学習コントローラを提案する。
線形制御器は、局所線形化モデル知識に基づいて設計され、運転点付近のシステムを安定化する。
学習はモデルベース(PILCO)とモデルフリー(DDPG)の両方のフレームワークで行われている。
論文 参考訳(メタデータ) (2020-09-12T20:56:48Z) - Single-step deep reinforcement learning for open-loop control of laminar
and turbulent flows [0.0]
本研究は,流体力学系の最適化と制御を支援するための深部強化学習(DRL)技術の能力を評価する。
原型ポリシー最適化(PPO)アルゴリズムの新たな"退化"バージョンを組み合わせることで、学習エピソード当たり1回だけシステムを最適化するニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-06-04T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。