論文の概要: Policy Dispersion in Non-Markovian Environment
- arxiv url: http://arxiv.org/abs/2302.14509v2
- Date: Mon, 3 Jun 2024 02:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:35:51.783847
- Title: Policy Dispersion in Non-Markovian Environment
- Title(参考訳): 非マルコフ環境における政策分散
- Authors: Bohao Qu, Xiaofeng Cao, Jielong Yang, Hechang Chen, Chang Yi, Ivor W. Tsang, Yew-Soon Ong,
- Abstract要約: 本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
- 参考スコア(独自算出の注目度): 53.05904889617441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Markov Decision Process (MDP) presents a mathematical framework to formulate the learning processes of agents in reinforcement learning. MDP is limited by the Markovian assumption that a reward only depends on the immediate state and action. However, a reward sometimes depends on the history of states and actions, which may result in the decision process in a non-Markovian environment. In such environments, agents receive rewards via temporally-extended behaviors sparsely, and the learned policies may be similar. This leads the agents acquired with similar policies generally overfit to the given task and can not quickly adapt to perturbations of environments. To resolve this problem, this paper tries to learn the diverse policies from the history of state-action pairs under a non-Markovian environment, in which a policy dispersion scheme is designed for seeking diverse policy representation. Specifically, we first adopt a transformer-based method to learn policy embeddings. Then, we stack the policy embeddings to construct a dispersion matrix to induce a set of diverse policies. Finally, we prove that if the dispersion matrix is positive definite, the dispersed embeddings can effectively enlarge the disagreements across policies, yielding a diverse expression for the original policy embedding distribution. Experimental results show that this dispersion scheme can obtain more expressive diverse policies, which then derive more robust performance than recent learning baselines under various learning environments.
- Abstract(参考訳): マルコフ決定過程(MDP)は、強化学習におけるエージェントの学習過程を定式化する数学的枠組みを示す。
MDPは、報酬は即時状態と行動にのみ依存するというマルコフの仮定によって制限される。
しかし、報酬は時として国家や行動の歴史に依存し、非マルコフ的環境における決定過程をもたらす可能性がある。
このような環境では、エージェントは時間的に拡張された行動を通じて報酬を受け取り、学習されたポリシーは似ているかもしれない。
これにより、類似したポリシーで取得されたエージェントは、一般に与えられたタスクに過度に適合し、環境の摂動に迅速に適応できない。
この問題を解決するために,本稿では,多様政策表現を求める政策分散スキームを設計した非マルコフ環境下で,状態-作用対の歴史から多様政策の学習を試みる。
具体的には、まず、ポリシー埋め込みを学習するトランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
最後に、分散行列が正定値であれば、分散埋め込みはポリシー間の不一致を効果的に拡大することができ、元のポリシー埋め込み分布に対する多様な表現が得られることを証明した。
実験結果から, この分散方式は, 様々な学習環境下での最近の学習ベースラインよりも, より表現力に富んだ多種多様な政策を導出できることが示された。
関連論文リスト
- Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Increasing Entropy to Boost Policy Gradient Performance on
Personalization Tasks [0.46040036610482665]
政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に及ぼす正規化の影響を考察する。
数値的な証拠は、ポリシーの正則化が、精度を損なうことなく、性能を向上させることを示すために与えられる。
論文 参考訳(メタデータ) (2023-10-09T01:03:05Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns
for Cross-Domain Adaptation [5.090135391530077]
多様な行動特性を持つ政策は、様々な相違のある下流環境に一般化することができる。
このような方針は、現実世界のシステムのような現実的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。
本稿では,規制行動を用いた多彩な政策を訓練し,望ましいパターンを発見することを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:13:51Z) - Non-Markovian policies occupancy measures [23.855882145667767]
強化学習(RL)における研究の中心的対象はマルコフの政策であり、エージェントの行動は記憶のない確率分布から選択される。
我々の主な貢献は、マルコフ的でない政策の占有度が同値にマルコフ的政策によって生成されることを証明することである。
この結果により、マルコフポリシークラスに関する定理は、その非マルコフポリシークラスに直接拡張できる。
論文 参考訳(メタデータ) (2022-05-27T12:49:33Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。