論文の概要: Meta-Reinforcement Learning by Tracking Task Non-stationarity
- arxiv url: http://arxiv.org/abs/2105.08834v1
- Date: Tue, 18 May 2021 21:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:45:44.367390
- Title: Meta-Reinforcement Learning by Tracking Task Non-stationarity
- Title(参考訳): タスク非定常性追跡によるメタ強化学習
- Authors: Riccardo Poiani, Andrea Tirinzoni, Marcello Restelli
- Abstract要約: 本稿では,タスクの時間的進化を明示的に追跡することで,将来に向けて最適化する新しいアルゴリズム(TRIO)を提案する。
既存のほとんどの方法とは異なり、TRIOはマルコフのタスク進化過程を想定していない。
我々は,異なるシミュレーション問題に対するアルゴリズムの評価を行い,競争ベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 45.90345116853823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world domains are subject to a structured non-stationarity which
affects the agent's goals and the environmental dynamics. Meta-reinforcement
learning (RL) has been shown successful for training agents that quickly adapt
to related tasks. However, most of the existing meta-RL algorithms for
non-stationary domains either make strong assumptions on the task generation
process or require sampling from it at training time. In this paper, we propose
a novel algorithm (TRIO) that optimizes for the future by explicitly tracking
the task evolution through time. At training time, TRIO learns a variational
module to quickly identify latent parameters from experience samples. This
module is learned jointly with an optimal exploration policy that takes task
uncertainty into account. At test time, TRIO tracks the evolution of the latent
parameters online, hence reducing the uncertainty over future tasks and
obtaining fast adaptation through the meta-learned policy. Unlike most existing
methods, TRIO does not assume Markovian task-evolution processes, it does not
require information about the non-stationarity at training time, and it
captures complex changes undergoing in the environment. We evaluate our
algorithm on different simulated problems and show it outperforms competitive
baselines.
- Abstract(参考訳): 多くの現実世界のドメインは、エージェントの目標と環境力学に影響を与える構造化された非定常性の対象である。
メタ強化学習(rl)は、関連するタスクに迅速に適応するトレーニングエージェントに成功している。
しかし、非定常領域のための既存のメタRLアルゴリズムのほとんどは、タスク生成プロセスに強い仮定を行うか、トレーニング時にサンプリングを必要とする。
本稿では,タスクの時間的進化を明示的に追跡することで,将来に向けて最適化する新しいアルゴリズム(TRIO)を提案する。
トレーニング時にTRIOは、経験サンプルから潜伏パラメータを素早く識別する変分モジュールを学習する。
このモジュールは、タスクの不確実性を考慮した最適探索ポリシーと共同で学習される。
テスト時にTRIOは、オンラインの潜在パラメータの進化を追跡し、将来のタスクに対する不確実性を減らし、メタ学習ポリシーによる迅速な適応を得る。
既存のほとんどの方法とは異なり、トリオはマルコフのタスク進化過程を仮定せず、訓練時の非定常性に関する情報を必要とせず、環境における複雑な変化を捉えている。
シミュレーション問題に対するアルゴリズムの評価を行い,競合ベースラインよりも優れていることを示す。
関連論文リスト
- Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。