論文の概要: IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse
- arxiv url: http://arxiv.org/abs/2308.07351v1
- Date: Mon, 14 Aug 2023 09:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:19:15.395423
- Title: IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse
- Title(参考訳): iob:マルチポリシー再利用のための最適化転送と振舞い転送の統合
- Authors: Siyuan Li, Hao Li, Jin Zhang, Zhen Wang, Peng Liu, Chongjie Zhang
- Abstract要約: 強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
- 参考スコア(独自算出の注目度): 50.90781542323258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have the ability to reuse previously learned policies to solve new
tasks quickly, and reinforcement learning (RL) agents can do the same by
transferring knowledge from source policies to a related target task. Transfer
RL methods can reshape the policy optimization objective (optimization
transfer) or influence the behavior policy (behavior transfer) using source
policies. However, selecting the appropriate source policy with limited samples
to guide target policy learning has been a challenge. Previous methods
introduce additional components, such as hierarchical policies or estimations
of source policies' value functions, which can lead to non-stationary policy
optimization or heavy sampling costs, diminishing transfer effectiveness. To
address this challenge, we propose a novel transfer RL method that selects the
source policy without training extra components. Our method utilizes the Q
function in the actor-critic framework to guide policy selection, choosing the
source policy with the largest one-step improvement over the current target
policy. We integrate optimization transfer and behavior transfer (IOB) by
regularizing the learned policy to mimic the guidance policy and combining them
as the behavior policy. This integration significantly enhances transfer
effectiveness, surpasses state-of-the-art transfer RL baselines in benchmark
tasks, and improves final performance and knowledge transferability in
continual learning scenarios. Additionally, we show that our optimization
transfer technique is guaranteed to improve target policy learning.
- Abstract(参考訳): 人間は、学習済みのポリシーを再利用して新しいタスクを迅速に解決し、強化学習(RL)エージェントは、ソースポリシーから関連するターゲットタスクに知識を移すことで、同じことができる。
転送RL法は、ポリシー最適化目標(最適化転送)を再構築したり、ソースポリシーを使用して行動ポリシー(行動伝達)に影響を与えることができる。
しかし、対象とする政策学習を導くためのサンプルを限定した適切なソースポリシーの選択が課題となっている。
以前の手法では、階層的なポリシーやソースポリシーの価値関数の推定といった追加のコンポーネントを導入し、非定常ポリシー最適化や大量のサンプリングコストにつながる可能性があるため、転送効率が低下する。
この課題に対処するため、我々は、余分なコンポーネントを訓練することなくソースポリシーを選択する新しい転送RL法を提案する。
提案手法は,アクタ・クリティカル・フレームワークのQ関数を用いて政策選択を誘導し,現在の目標政策よりも最大の1段階改善を施したソースポリシーを選択する。
我々は,学習方針を規則化し,指導方針を模倣し,それらを行動方針として組み合わせることで,最適化伝達と行動伝達(iob)を統合する。
この統合は、転送効率を大幅に向上し、ベンチマークタスクにおける最先端の転送RLベースラインを超越し、継続的な学習シナリオにおける最終的なパフォーマンスと知識伝達性を向上させる。
さらに,本手法は目標政策学習を改善するためにも有効であることを示す。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Diversity for Contingency: Learning Diverse Behaviors for Efficient
Adaptation and Transfer [0.0]
与えられたタスクのすべての可能な解を見つけるための簡単な方法を提案する。
従来の手法とは異なり,本手法では新規性検出のための新たなモデルを学ぶ必要はない。
論文 参考訳(メタデータ) (2023-10-11T13:39:35Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。