論文の概要: CUP: Critic-Guided Policy Reuse
- arxiv url: http://arxiv.org/abs/2210.08153v1
- Date: Sat, 15 Oct 2022 00:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:42:45.235781
- Title: CUP: Critic-Guided Policy Reuse
- Title(参考訳): CUP:批判に導かれた政策再利用
- Authors: Jin Zhang, Siyuan Li, Chongjie Zhang
- Abstract要約: Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 37.12379523150601
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability to reuse previous policies is an important aspect of human
intelligence. To achieve efficient policy reuse, a Deep Reinforcement Learning
(DRL) agent needs to decide when to reuse and which source policies to reuse.
Previous methods solve this problem by introducing extra components to the
underlying algorithm, such as hierarchical high-level policies over source
policies, or estimations of source policies' value functions on the target
task. However, training these components induces either optimization
non-stationarity or heavy sampling cost, significantly impairing the
effectiveness of transfer. To tackle this problem, we propose a novel policy
reuse algorithm called Critic-gUided Policy reuse (CUP), which avoids training
any extra components and efficiently reuses source policies. CUP utilizes the
critic, a common component in actor-critic methods, to evaluate and choose
source policies. At each state, CUP chooses the source policy that has the
largest one-step improvement over the current target policy, and forms a
guidance policy. The guidance policy is theoretically guaranteed to be a
monotonic improvement over the current target policy. Then the target policy is
regularized to imitate the guidance policy to perform efficient policy search.
Empirical results demonstrate that CUP achieves efficient transfer and
significantly outperforms baseline algorithms.
- Abstract(参考訳): 以前の政策を再利用する能力は、人間の知能の重要な側面である。
効率的な政策再利用を実現するために、Deep Reinforcement Learning (DRL)エージェントは、いつ再利用するか、どのソースポリシーを再利用するかを決定する必要がある。
従来の手法では、ソースポリシー上の階層的な高レベルポリシーや、ターゲットタスク上のソースポリシーの値関数の推定など、基礎となるアルゴリズムに余分なコンポーネントを導入することでこの問題を解決している。
しかしながら、これらのコンポーネントのトレーニングは、非定常性または重いサンプリングコストの最適化を誘導し、転送の有効性を著しく損なう。
この問題に対処するため,我々は,余分なコンポーネントのトレーニングを回避し,ソースポリシを効率的に再利用する,評論家主導ポリシー再利用(cup)と呼ばれる新しいポリシー再利用アルゴリズムを提案する。
CUPは、アクター批判手法の共通コンポーネントである批評家を利用して、ソースポリシーを評価し、選択する。
各州において、CUPは、現在の目標政策よりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
指導政策は理論的には現在の目標政策よりも単調な改善が保証されている。
そして、目標ポリシーを規則化し、ガイダンスポリシーを模倣して効率的なポリシー探索を行う。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。