論文の概要: Reward-Free Policy Space Compression for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.11079v1
- Date: Tue, 22 Feb 2022 18:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 16:16:52.204839
- Title: Reward-Free Policy Space Compression for Reinforcement Learning
- Title(参考訳): 強化学習のための報酬フリーポリシー空間圧縮
- Authors: Mirco Mutti, Stefano Del Col, Marcello Restelli
- Abstract要約: 強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。
我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
- 参考スコア(独自算出の注目度): 39.04317877999891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, we encode the potential behaviors of an agent
interacting with an environment into an infinite set of policies, the policy
space, typically represented by a family of parametric functions. Dealing with
such a policy space is a hefty challenge, which often causes sample and
computation inefficiencies. However, we argue that a limited number of policies
are actually relevant when we also account for the structure of the environment
and of the policy parameterization, as many of them would induce very similar
interactions, i.e., state-action distributions. In this paper, we seek for a
reward-free compression of the policy space into a finite set of representative
policies, such that, given any policy $\pi$, the minimum R\'enyi divergence
between the state-action distributions of the representative policies and the
state-action distribution of $\pi$ is bounded. We show that this compression of
the policy space can be formulated as a set cover problem, and it is inherently
NP-hard. Nonetheless, we propose a game-theoretic reformulation for which a
locally optimal solution can be efficiently found by iteratively stretching the
compressed space to cover an adversarial policy. Finally, we provide an
empirical evaluation to illustrate the compression procedure in simple domains,
and its ripple effects in reinforcement learning.
- Abstract(参考訳): 強化学習では、環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーの集合、つまり、通常パラメトリック関数の族によって表されるポリシー空間に符号化する。
このようなポリシー空間を扱うことは、しばしばサンプルと計算の非効率を引き起こす非常に大きな課題である。
しかし、環境の構造や政策パラメータ化も考慮し、それらの多くは、状態-作用分布という非常に類似した相互作用を誘発するので、実際には限られた数の政策が関係していると論じる。
本稿では,任意のポリシー$\pi$ が与えられた場合,代表政策の状態行動分布と状態行動分布である$\pi$ との最小の r\'enyi の発散が有界となるように,政策空間を有限個の代表政策に無報酬に圧縮することを求める。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
そこで本研究では,圧縮空間を反復的に伸長して逆方針をカバーすることで,局所最適解を効率的に見つけることができるゲーム理論的再構成を提案する。
最後に, 簡単な領域での圧縮手順の実証評価と, 強化学習における波及効果について述べる。
関連論文リスト
- Performance of NPG in Countable State-Space Average-Cost RL [12.949520455740092]
状態空間が任意に大きい強化学習環境における政策最適化手法を検討する。
モチベーションは、通信ネットワーク、マッチングマーケット、その他のキューシステムにおける制御問題から生じる。
論文 参考訳(メタデータ) (2024-05-30T20:29:52Z) - Policy-Space Search: Equivalences, Improvements, and Compression [5.801044612920816]
完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。
A* with Non-Determinism (AND*)は、FOND計画のためにA*を一般化するFONDプランナーである。
論文 参考訳(メタデータ) (2024-03-28T23:40:20Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。