Fugu-MT 論文翻訳(概要): DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning

論文の概要: DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.12412v1
Date: Mon, 26 Sep 2022 04:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 14:36:14.068744
Title: DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning
Title（参考訳）: DEFT:強化学習における高速トランスファーのためのディバースアンサンブル
Authors: Simeon Adebola, Satvik Sharma, Kaushik Shivakumar
Abstract要約: 高いマルチモーダル環境下での強化学習のための新しいアンサンブル法であるDEFT(Diverse Ensembles for Fast Transfer in RL)を提案する。このアルゴリズムは、アンサンブルメンバーの訓練と、アンサンブルメンバーの合成(または微調整)という2つの主要なフェーズに分けられる。
参考スコア（独自算出の注目度）: 1.111018778205595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep ensembles have been shown to extend the positive effect seen in typical ensemble learning to neural networks and to reinforcement learning (RL). However, there is still much to be done to improve the efficiency of such ensemble models. In this work, we present Diverse Ensembles for Fast Transfer in RL (DEFT), a new ensemble-based method for reinforcement learning in highly multimodal environments and improved transfer to unseen environments. The algorithm is broken down into two main phases: training of ensemble members, and synthesis (or fine-tuning) of the ensemble members into a policy that works in a new environment. The first phase of the algorithm involves training regular policy gradient or actor-critic agents in parallel but adding a term to the loss that encourages these policies to differ from each other. This causes the individual unimodal agents to explore the space of optimal policies and capture more of the multimodality of the environment than a single actor could. The second phase of DEFT involves synthesizing the component policies into a new policy that works well in a modified environment in one of two ways. To evaluate the performance of DEFT, we start with a base version of the Proximal Policy Optimization (PPO) algorithm and extend it with the modifications for DEFT. Our results show that the pretraining phase is effective in producing diverse policies in multimodal environments. DEFT often converges to a high reward significantly faster than alternatives, such as random initialization without DEFT and fine-tuning of ensemble members. While there is certainly more work to be done to analyze DEFT theoretically and extend it to be even more robust, we believe it provides a strong framework for capturing multimodality in environments while still using RL methods with simple policy representations.
Abstract（参考訳）: ディープアンサンブルは、典型的なアンサンブル学習で見られる正の効果をニューラルネットワークや強化学習(RL)に拡張することが示されている。しかし、これらのアンサンブルモデルの効率を改善するためにはまだ多くのことが残っている。本稿では,高マルチモーダル環境における強化学習のための新しいアンサンブルベース手法であるrl (deft) における高速転送のための多様なアンサンブルについて述べる。このアルゴリズムは、アンサンブルメンバのトレーニングと、アンサンブルメンバの合成(あるいは微調整)と、新しい環境で動作するポリシの2つの主要なフェーズに分割されている。アルゴリズムの第1フェーズでは、通常のポリシー勾配またはアクター批判エージェントを並列にトレーニングするが、これらのポリシーが互いに異なることを奨励する損失に用語を追加する。これにより、個々の一助的エージェントは最適なポリシーの空間を探索し、単一のアクターよりも環境のマルチモダリティを捉えることができる。 DEFTの第2フェーズでは、コンポーネントポリシーを2つの方法で修正された環境でうまく機能する新しいポリシーに合成する。 DEFTの性能を評価するため、我々はPPOアルゴリズムのベースバージョンから始め、DEFTの修正を加えて拡張する。以上の結果から,プレトレーニングフェーズはマルチモーダル環境における多様な政策の生成に有効であることが示された。 DEFTはしばしば、DEFTのないランダム初期化やアンサンブルメンバーの微調整など、選択肢よりもはるかに高速な報酬に収束する。 DEFTを理論的に分析し、さらに堅牢に拡張するには、もっと多くの作業が必要だが、シンプルなポリシー表現を持つRLメソッドを使用しながら、環境におけるマルチモダリティをキャプチャするための強力なフレームワークを提供すると考えている。

関連論文リスト

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Multi-Fidelity Policy Gradient Algorithms [23.62115512789292]
強化学習アルゴリズムには大量のデータが必要です低忠実度シミュレータは、直接sim-to-real転送するには大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。我々は、ターゲット環境から少量のデータと大量の低忠実度シミュレーションデータとを混合するRLフレームワークである多忠実度ポリシー勾配(Gs)を提案する。
論文参考訳（メタデータ） (2025-03-07T18:58:23Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。 DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。 DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文参考訳（メタデータ） (2024-09-01T02:47:50Z)
OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文参考訳（メタデータ） (2024-05-29T13:36:36Z)
DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-24T03:11:12Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文参考訳（メタデータ） (2022-06-22T19:00:08Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Towards an Understanding of Default Policies in Multitask Policy Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-11-04T16:45:15Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。