Fugu-MT 論文翻訳(概要): Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting

論文の概要: Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting

arxiv url: http://arxiv.org/abs/2007.07011v2
Date: Wed, 21 Oct 2020 20:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 13:22:40.196523
Title: Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting
Title（参考訳）: ファクトポリシーの生涯的学習 : 意思決定を伴わない高速トレーニング
Authors: Jorge A. Mendez and Boyu Wang and Eric Eaton
Abstract要約: 本稿では, 生涯関数近似器を直接, ポリシー勾配を用いて訓練する, 生涯ポリシー勾配学習のための新しい方法を提案する。我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも高速に学習し,より良いポリシーに収束することを示す。
参考スコア（独自算出の注目度）: 26.13332231423652
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy gradient methods have shown success in learning control policies for high-dimensional dynamical systems. Their biggest downside is the amount of exploration they require before yielding high-performing policies. In a lifelong learning setting, in which an agent is faced with multiple consecutive tasks over its lifetime, reusing information from previously seen tasks can substantially accelerate the learning of new tasks. We provide a novel method for lifelong policy gradient learning that trains lifelong function approximators directly via policy gradients, allowing the agent to benefit from accumulated knowledge throughout the entire training process. We show empirically that our algorithm learns faster and converges to better policies than single-task and lifelong learning baselines, and completely avoids catastrophic forgetting on a variety of challenging domains.
Abstract（参考訳）: 政策勾配法は高次元力学系の学習制御政策に成功している。彼らの最大の欠点は、高いパフォーマンスの政策を得る前に必要な探検の量である。エージェントが生涯にわたって連続したタスクに直面する生涯学習環境では、これまで見られたタスクからの情報を再利用することで、新しいタスクの学習を大幅に加速させることができる。政策勾配を通じて生涯関数近似関数を直接訓練し、訓練プロセス全体を通して蓄積された知識の恩恵を受ける、生涯政策勾配学習の新規な方法を提案する。我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも早く学習し,より良いポリシーに収束することを示す。

関連論文リスト

Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文参考訳（メタデータ） (2024-11-14T11:10:36Z)
IOB: Integrating Optimization Transfer and Behavior Transfer for Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文参考訳（メタデータ） (2023-08-14T09:22:35Z)
Reactive Exploration to Cope with Non-Stationarity in Lifelong Reinforcement Learning [4.489095027077955]
本稿では,生涯強化学習におけるドメインシフトの追跡と応答を目的としたリアクティブ探索を提案する。政策段階の家族の代表者はQ学習よりも分布変化に迅速に適応するため、生涯学習に適していることを実証的に示す。
論文参考訳（メタデータ） (2022-07-12T17:59:00Z)
TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文参考訳（メタデータ） (2022-05-26T17:49:12Z)
SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文参考訳（メタデータ） (2022-02-10T05:43:41Z)
Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2021-07-01T15:30:59Z)
Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。 SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文参考訳（メタデータ） (2021-06-10T06:29:59Z)
Lifetime policy reuse and the importance of task capacity [6.390849000337326]
政策再利用やその他の多目的強化学習技術は、複数のタスクを学習できるが、多くのポリシーを生成する可能性がある。本稿では, ライフサイクルポリシー再利用アルゴリズムのライフサイクル・ポリシー・リユース(Lifetime Policy Reuse)について述べる。その結果,最大125タスクのPacmanドメインとCartpoleドメインにおいて,ライフタイムポリシー再利用とタスクキャパシティに基づく事前選択の重要性が示された。
論文参考訳（メタデータ） (2021-06-03T10:42:49Z)
Learning Adaptive Exploration Strategies in Dynamic Environments Through Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-06T16:14:48Z)
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文参考訳（メタデータ） (2020-02-19T07:30:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。