論文の概要: DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.12412v1
- Date: Mon, 26 Sep 2022 04:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:36:14.068744
- Title: DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning
- Title(参考訳): DEFT:強化学習における高速トランスファーのためのディバースアンサンブル
- Authors: Simeon Adebola, Satvik Sharma, Kaushik Shivakumar
- Abstract要約: 高いマルチモーダル環境下での強化学習のための新しいアンサンブル法であるDEFT(Diverse Ensembles for Fast Transfer in RL)を提案する。
このアルゴリズムは、アンサンブルメンバーの訓練と、アンサンブルメンバーの合成(または微調整)という2つの主要なフェーズに分けられる。
- 参考スコア(独自算出の注目度): 1.111018778205595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep ensembles have been shown to extend the positive effect seen in typical
ensemble learning to neural networks and to reinforcement learning (RL).
However, there is still much to be done to improve the efficiency of such
ensemble models. In this work, we present Diverse Ensembles for Fast Transfer
in RL (DEFT), a new ensemble-based method for reinforcement learning in highly
multimodal environments and improved transfer to unseen environments. The
algorithm is broken down into two main phases: training of ensemble members,
and synthesis (or fine-tuning) of the ensemble members into a policy that works
in a new environment.
The first phase of the algorithm involves training regular policy gradient or
actor-critic agents in parallel but adding a term to the loss that encourages
these policies to differ from each other. This causes the individual unimodal
agents to explore the space of optimal policies and capture more of the
multimodality of the environment than a single actor could. The second phase of
DEFT involves synthesizing the component policies into a new policy that works
well in a modified environment in one of two ways. To evaluate the performance
of DEFT, we start with a base version of the Proximal Policy Optimization (PPO)
algorithm and extend it with the modifications for DEFT. Our results show that
the pretraining phase is effective in producing diverse policies in multimodal
environments. DEFT often converges to a high reward significantly faster than
alternatives, such as random initialization without DEFT and fine-tuning of
ensemble members.
While there is certainly more work to be done to analyze DEFT theoretically
and extend it to be even more robust, we believe it provides a strong framework
for capturing multimodality in environments while still using RL methods with
simple policy representations.
- Abstract(参考訳): ディープアンサンブルは、典型的なアンサンブル学習で見られる正の効果をニューラルネットワークや強化学習(RL)に拡張することが示されている。
しかし、これらのアンサンブルモデルの効率を改善するためにはまだ多くのことが残っている。
本稿では,高マルチモーダル環境における強化学習のための新しいアンサンブルベース手法であるrl (deft) における高速転送のための多様なアンサンブルについて述べる。
このアルゴリズムは、アンサンブルメンバのトレーニングと、アンサンブルメンバの合成(あるいは微調整)と、新しい環境で動作するポリシの2つの主要なフェーズに分割されている。
アルゴリズムの第1フェーズでは、通常のポリシー勾配またはアクター批判エージェントを並列にトレーニングするが、これらのポリシーが互いに異なることを奨励する損失に用語を追加する。
これにより、個々の一助的エージェントは最適なポリシーの空間を探索し、単一のアクターよりも環境のマルチモダリティを捉えることができる。
DEFTの第2フェーズでは、コンポーネントポリシーを2つの方法で修正された環境でうまく機能する新しいポリシーに合成する。
DEFTの性能を評価するため、我々はPPOアルゴリズムのベースバージョンから始め、DEFTの修正を加えて拡張する。
以上の結果から,プレトレーニングフェーズはマルチモーダル環境における多様な政策の生成に有効であることが示された。
DEFTはしばしば、DEFTのないランダム初期化やアンサンブルメンバーの微調整など、選択肢よりもはるかに高速な報酬に収束する。
DEFTを理論的に分析し、さらに堅牢に拡張するには、もっと多くの作業が必要だが、シンプルなポリシー表現を持つRLメソッドを使用しながら、環境におけるマルチモダリティをキャプチャするための強力なフレームワークを提供すると考えている。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
現在の学習手法の多くは、学習者にとって最適な戦略を導き出すために、値関数のような積分的アイデンティティに焦点を当てている。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。