論文の概要: Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search
- arxiv url: http://arxiv.org/abs/2201.08832v1
- Date: Fri, 21 Jan 2022 18:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 15:03:31.409339
- Title: Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search
- Title(参考訳): 占有率情報比:無限ホリゾン、情報指向、パラメータ化ポリシー検索
- Authors: Wesley A. Suttle, Alec Koppel, Ji Liu
- Abstract要約: 無限水平強化学習問題における探索・探索トレードオフの新しい尺度を開発した。
占有情報比(OIR)は、政策の無限水平平均コストと、その長期占有率のエントロピーとの比からなる。
- 参考スコア(独自算出の注目度): 19.41759399790186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a new measure of the exploration/exploitation trade-off in
infinite-horizon reinforcement learning problems called the occupancy
information ratio (OIR), which is comprised of a ratio between the
infinite-horizon average cost of a policy and the entropy of its long-term
state occupancy measure. The OIR ensures that no matter how many trajectories
an RL agent traverses or how well it learns to minimize cost, it maintains a
healthy skepticism about its environment, in that it defines an optimal policy
which induces a high-entropy occupancy measure. Different from earlier
information ratio notions, OIR is amenable to direct policy search over
parameterized families, and exhibits hidden quasiconcavity through invocation
of the perspective transformation. This feature ensures that under appropriate
policy parameterizations, the OIR optimization problem has no spurious
stationary points, despite the overall problem's nonconvexity. We develop for
the first time policy gradient and actor-critic algorithms for OIR optimization
based upon a new entropy gradient theorem, and establish both asymptotic and
non-asymptotic convergence results with global optimality guarantees. In
experiments, these methodologies outperform several deep RL baselines in
problems with sparse rewards, where many trajectories may be uninformative and
skepticism about the environment is crucial to success.
- Abstract(参考訳): 我々は、政策の無限水平平均コストと長期的占有率のエントロピーとの比から構成される、占領情報比(OIR)と呼ばれる無限水平強化学習問題における探索・探索トレードオフの新たな尺度を開発する。
OIRは、どのくらいの軌道がRLエージェントを横切るか、コストを最小限に抑えるためにどの程度の学習をしても、その環境に対する健全な懐疑性を維持し、高いエントロピー占有率を誘導する最適なポリシーを定義する。
従来の情報比の概念と異なり、OIRはパラメータ化された家族に対して直接ポリシー探索が可能であり、視点変換の呼び出しを通じて隠れた準特異性を示す。
この特徴は、適切なポリシーパラメータ化の下では、全体的な不凸性にもかかわらず、OIR最適化問題は急激な定常点を持たないことを保証している。
我々は,新しいエントロピー勾配定理に基づくoir最適化のためのポリシー勾配とアクタ-クリティックアルゴリズムを初めて開発し,大域的最適性保証により漸近的および非漸近的収束結果を確立する。
実験では、これらの手法はスパース報酬の問題においていくつかの深いRLベースラインよりも優れており、多くの軌道は非形式的であり、環境に対する懐疑論が成功に不可欠である。
関連論文リスト
- Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
その結果,提案したtextsfPARL が RL におけるアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Stochastic first-order methods for average-reward Markov decision
processes [10.483316336206903]
平均回帰マルコフ決定過程(AMDP)の問題点について検討する。
我々は,政策評価と最適化の両面において,強力な理論的保証を持つ新しい一階法を開発した。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Distributed Policy Gradient with Variance Reduction in Multi-Agent
Reinforcement Learning [7.4447396913959185]
本稿では,協調型マルチエージェント強化学習(MARL)における分散ポリシ勾配について検討する。
通信ネットワーク上のエージェントは、すべてのエージェントのローカルリターンの平均を最大化するための最適なポリシーを見つけることを目的としている。
論文 参考訳(メタデータ) (2021-11-25T08:07:30Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。