論文の概要: Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search
- arxiv url: http://arxiv.org/abs/2201.08832v2
- Date: Thu, 28 Dec 2023 05:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:51:32.630833
- Title: Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search
- Title(参考訳): 占有率情報比:無限ホリゾン、情報指向、パラメータ化ポリシー検索
- Authors: Wesley A. Suttle, Alec Koppel, Ji Liu
- Abstract要約: 我々は、占領情報比(OIR)と呼ばれる、無限水平強化学習(RL)のための情報指向型目標を提案する。
OIRは、豊富な基盤構造を享受し、スケーラブルでモデルフリーなポリシーサーチ手法が自然に適用される目的を示す。
準コンカベ最適化と線形プログラミング理論をマルコフ決定過程に利用することにより、基礎となるモデルが知られている場合、OIR問題をコンカベプログラミング手法で変換・解けることを示す。
- 参考スコア(独自算出の注目度): 21.850348833971722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose an information-directed objective for
infinite-horizon reinforcement learning (RL), called the occupancy information
ratio (OIR), inspired by the information ratio objectives used in previous
information-directed sampling schemes for multi-armed bandits and Markov
decision processes as well as recent advances in general utility RL. The OIR,
comprised of a ratio between the average cost of a policy and the entropy of
its induced state occupancy measure, enjoys rich underlying structure and
presents an objective to which scalable, model-free policy search methods
naturally apply. Specifically, we show by leveraging connections between
quasiconcave optimization and the linear programming theory for Markov decision
processes that the OIR problem can be transformed and solved via concave
programming methods when the underlying model is known. Since model knowledge
is typically lacking in practice, we lay the foundations for model-free OIR
policy search methods by establishing a corresponding policy gradient theorem.
Building on this result, we subsequently derive REINFORCE- and
actor-critic-style algorithms for solving the OIR problem in policy parameter
space. Crucially, exploiting the powerful hidden quasiconcavity property
implied by the concave programming transformation of the OIR problem, we
establish finite-time convergence of the REINFORCE-style scheme to global
optimality and asymptotic convergence of the actor-critic-style scheme to
(near) global optimality under suitable conditions. Finally, we experimentally
illustrate the utility of OIR-based methods over vanilla methods in
sparse-reward settings, supporting the OIR as an alternative to existing RL
objectives.
- Abstract(参考訳): 本研究では,マルチアームドバンディットとマルコフ決定過程における従来の情報指向サンプリング方式における情報比目標と,汎用rlの最近の進歩に触発されて,無限ホリゾン強化学習(rl)のための情報指向目標であるoccupancy information ratio(oir)を提案する。
OIRは、政策の平均コストと誘導状態占有率のエントロピーの比率からなり、豊富な基盤構造を享受し、スケーラブルでモデルフリーな政策探索手法を自然に適用する目的を提示する。
具体的には,擬似コンケーブ最適化とマルコフ決定過程の線形プログラミング理論の接続を利用して,基礎となるモデルが知られている場合,OIR問題をコンケーブプログラミング手法で変換・解けることを示す。
モデル知識は実際には欠如しているため、対応する方針勾配定理を定め、モデルフリーなoirポリシー探索法の基礎を定めている。
この結果に基づいて、ポリシーパラメータ空間におけるOIR問題を解決するためのREINFORCEおよびアクター批判型アルゴリズムを導出する。
そこで,oir問題の凹型プログラミング変換に含意される,強力な隠れた準空洞特性を活用し,大域的最適性に対する強化型スキームの有限時間収束とアクタ-クリティック型スキームの漸近的収束を,適切な条件下で(ほぼ)大域的最適性に確立する。
最後に, スパース・リワード設定におけるバニラ法に対するOIR法の有用性を実験的に説明し, 既存のRL目的の代替としてOIRをサポートする。
関連論文リスト
- Policy Gradient for Robust Markov Decision Processes [16.281897051782863]
本稿では、ロバストなマルコフ決定過程(MDP)を解くために、新しいポリシー勾配法であるダブルループロバストポリシーミラーDescent(MD)を提案する。
MDは、イテレーション毎の適応耐性を持つポリシー最適化に一般的なミラー降下更新ルールを採用し、グローバルな最適ポリシーへの収束を保証する。
我々は,直接パラメータ化とソフトマックスパラメータ化の両方の下での新しい収束結果を含むMDの包括的解析を行い,トランジションミラー・アセンション(TMA)による内部問題の解に対する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-29T15:16:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。