論文の概要: Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple
Baseline
- arxiv url: http://arxiv.org/abs/2205.14495v1
- Date: Sat, 28 May 2022 17:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:52:47.331494
- Title: Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple
Baseline
- Title(参考訳): タスク非依存型継続的強化学習: 単純なベースラインの評価
- Authors: Massimo Caccia, Jonas Mueller, Taesup Kim, Laurent Charlin, Rasool
Fakoor
- Abstract要約: タスク非依存型連続強化学習(TACRL)について検討する。
TACRL法と従来の文献で規定されたソフトな上界との比較を行った。
3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドの克服が驚くべき結果となった。
- 参考スコア(独自算出の注目度): 27.474011433615317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study task-agnostic continual reinforcement learning (TACRL) in which
standard RL challenges are compounded with partial observability stemming from
task agnosticism, as well as additional difficulties of continual learning
(CL), i.e., learning on a non-stationary sequence of tasks. Here we compare
TACRL methods with their soft upper bounds prescribed by previous literature:
multi-task learning (MTL) methods which do not have to deal with non-stationary
data distributions, as well as task-aware methods, which are allowed to operate
under full observability. We consider a previously unexplored and
straightforward baseline for TACRL, replay-based recurrent RL (3RL), in which
we augment an RL algorithm with recurrent mechanisms to address partial
observability and experience replay mechanisms to address catastrophic
forgetting in CL.
Studying empirical performance in a sequence of RL tasks, we find surprising
occurrences of 3RL matching and overcoming the MTL and task-aware soft upper
bounds. We lay out hypotheses that could explain this inflection point of
continual and task-agnostic learning research. Our hypotheses are empirically
tested in continuous control tasks via a large-scale study of the popular
multi-task and continual learning benchmark Meta-World. By analyzing different
training statistics including gradient conflict, we find evidence that 3RL's
outperformance stems from its ability to quickly infer how new tasks relate
with the previous ones, enabling forward transfer.
- Abstract(参考訳): 標準のrl課題にタスク非依存主義による部分的可観測性が組み合わさったタスク非依存型連続強化学習(tacrl)と、非定常的なタスク列で学習する継続学習(cl)のさらなる困難について検討する。
本稿では,TACRL法と従来の文献で規定したソフトな上限値を比較する。非定常データ分布を扱う必要のないマルチタスク学習(MTL)法と,完全な可観測性の下で動作可能なタスク認識法である。
TACRL(replay-based recurrent RL, replay-based recurrent RL, 3RL)の既往のベースラインとして,部分観測可能性に対処する再帰機構とCLの破滅的忘れに対処する経験的再生機構をRLアルゴリズムに拡張した。
一連のRLタスクにおける経験的性能について検討し、3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドを克服する驚くべき結果を得た。
継続的かつタスクに依存しない学習研究のこの転換点を説明する仮説を提示する。
我々の仮説は、多タスクおよび連続学習ベンチマークMeta-Worldの大規模研究を通じて、連続制御タスクにおいて経験的に検証されている。
勾配コンフリクトを含む異なるトレーニング統計を解析することにより、3RLのアウトパフォーマンスが、新しいタスクが前のタスクとどのように関係しているかを素早く推測し、転送を可能にする能力に起因することを示す。
関連論文リスト
- MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。