論文の概要: Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2209.07696v1
- Date: Fri, 16 Sep 2022 03:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:39:34.900466
- Title: Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における統一政策抽象化理論と表現学習アプローチに向けて
- Authors: Min Zhang, Hongyao Tang, Jianye Hao, Yan Zheng
- Abstract要約: 本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。
実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
- 参考スコア(独自算出の注目度): 39.94472154078338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lying on the heart of intelligent decision-making systems, how policy is
represented and optimized is a fundamental problem. The root challenge in this
problem is the large scale and the high complexity of policy space, which
exacerbates the difficulty of policy learning especially in real-world
scenarios. Towards a desirable surrogate policy space, recently policy
representation in a low-dimensional latent space has shown its potential in
improving both the evaluation and optimization of policy. The key question
involved in these studies is by what criterion we should abstract the policy
space for desired compression and generalization. However, both the theory on
policy abstraction and the methodology on policy representation learning are
less studied in the literature. In this work, we make very first efforts to
fill up the vacancy. First, we propose a unified policy abstraction theory,
containing three types of policy abstraction associated to policy features at
different levels. Then, we generalize them to three policy metrics that
quantify the distance (i.e., similarity) of policies, for more convenient use
in learning policy representation. Further, we propose a policy representation
learning approach based on deep metric learning. For the empirical study, we
investigate the efficacy of the proposed policy metrics and representations, in
characterizing policy difference and conveying policy generalization
respectively. Our experiments are conducted in both policy optimization and
evaluation problems, containing trust-region policy optimization (TRPO),
diversity-guided evolution strategy (DGES) and off-policy evaluation (OPE).
Somewhat naturally, the experimental results indicate that there is no a
universally optimal abstraction for all downstream learning problems; while the
influence-irrelevance policy abstraction can be a generally preferred choice.
- Abstract(参考訳): インテリジェントな意思決定システムの中心にあるのは、ポリシーの表現と最適化が根本的な問題である。
この問題の根本的課題は、特に現実のシナリオにおいて、政策学習の難しさを悪化させる、大規模かつ高い政策空間の複雑さである。
望ましい政策空間に向けて、最近、低次元の潜在空間における政策表現は、政策の評価と最適化の両方を改善する可能性を示している。
これらの研究にかかわる重要な疑問は、望ましい圧縮と一般化のために政策空間を抽象化すべき基準である。
しかし、政策抽象論と政策表象学習の方法論はいずれも文献ではあまり研究されていない。
この作業では、空室を埋めるために、まず最初に取り組みます。
まず,異なるレベルの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
次に,政策表現の学習において,より便利に利用するために,政策の距離(すなわち類似性)を定量化する3つの政策指標に一般化する。
さらに,深層メトリック学習に基づく政策表現学習手法を提案する。
実証研究として,政策の差異を特徴づけ,政策の一般化を伝達する上で,提案した政策指標と表現の有効性を検討する。
本研究は,信頼区間政策最適化(TRPO),多様性誘導進化戦略(DGES),非政治評価(OPE)を含む政策最適化と評価問題の両方において実施した。
ある程度自然に、実験結果は下流のすべての学習問題に対して普遍的に最適な抽象化は存在しないことを示している。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - PG3: Policy-Guided Planning for Generalized Policy Generation [25.418642034856365]
本稿では,政策探索の指針となるスコア関数に着目した一般政策探索手法について検討する。
このアプローチの背景にある主な考え方は、その候補を評価するためのメカニズムとして、トレーニング問題の計画立案に候補ポリシーを使うべきだということです。
6つのドメインの実証的な結果は、PG3が複数のベースラインよりも効率的かつ効果的に一般化されたポリシーを学習していることを確認する。
論文 参考訳(メタデータ) (2022-04-21T21:59:25Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。