論文の概要: Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple
Baseline
- arxiv url: http://arxiv.org/abs/2205.14495v1
- Date: Sat, 28 May 2022 17:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:52:47.331494
- Title: Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple
Baseline
- Title(参考訳): タスク非依存型継続的強化学習: 単純なベースラインの評価
- Authors: Massimo Caccia, Jonas Mueller, Taesup Kim, Laurent Charlin, Rasool
Fakoor
- Abstract要約: タスク非依存型連続強化学習(TACRL)について検討する。
TACRL法と従来の文献で規定されたソフトな上界との比較を行った。
3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドの克服が驚くべき結果となった。
- 参考スコア(独自算出の注目度): 27.474011433615317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study task-agnostic continual reinforcement learning (TACRL) in which
standard RL challenges are compounded with partial observability stemming from
task agnosticism, as well as additional difficulties of continual learning
(CL), i.e., learning on a non-stationary sequence of tasks. Here we compare
TACRL methods with their soft upper bounds prescribed by previous literature:
multi-task learning (MTL) methods which do not have to deal with non-stationary
data distributions, as well as task-aware methods, which are allowed to operate
under full observability. We consider a previously unexplored and
straightforward baseline for TACRL, replay-based recurrent RL (3RL), in which
we augment an RL algorithm with recurrent mechanisms to address partial
observability and experience replay mechanisms to address catastrophic
forgetting in CL.
Studying empirical performance in a sequence of RL tasks, we find surprising
occurrences of 3RL matching and overcoming the MTL and task-aware soft upper
bounds. We lay out hypotheses that could explain this inflection point of
continual and task-agnostic learning research. Our hypotheses are empirically
tested in continuous control tasks via a large-scale study of the popular
multi-task and continual learning benchmark Meta-World. By analyzing different
training statistics including gradient conflict, we find evidence that 3RL's
outperformance stems from its ability to quickly infer how new tasks relate
with the previous ones, enabling forward transfer.
- Abstract(参考訳): 標準のrl課題にタスク非依存主義による部分的可観測性が組み合わさったタスク非依存型連続強化学習(tacrl)と、非定常的なタスク列で学習する継続学習(cl)のさらなる困難について検討する。
本稿では,TACRL法と従来の文献で規定したソフトな上限値を比較する。非定常データ分布を扱う必要のないマルチタスク学習(MTL)法と,完全な可観測性の下で動作可能なタスク認識法である。
TACRL(replay-based recurrent RL, replay-based recurrent RL, 3RL)の既往のベースラインとして,部分観測可能性に対処する再帰機構とCLの破滅的忘れに対処する経験的再生機構をRLアルゴリズムに拡張した。
一連のRLタスクにおける経験的性能について検討し、3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドを克服する驚くべき結果を得た。
継続的かつタスクに依存しない学習研究のこの転換点を説明する仮説を提示する。
我々の仮説は、多タスクおよび連続学習ベンチマークMeta-Worldの大規模研究を通じて、連続制御タスクにおいて経験的に検証されている。
勾配コンフリクトを含む異なるトレーニング統計を解析することにより、3RLのアウトパフォーマンスが、新しいタスクが前のタスクとどのように関係しているかを素早く推測し、転送を可能にする能力に起因することを示す。
関連論文リスト
- Robust Analysis of Multi-Task Learning on a Complex Vision System [73.65915899030895]
マルチタスク学習(MTL)は過去10年間に広く研究されてきた。
複雑な実世界のシナリオにおけるパフォーマンスについて、まだ深く理解されていない。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - When Multi-Task Learning Meets Partial Supervision: A Computer Vision
Review [6.789370732159176]
マルチタスク学習(MTL)は,相互関係を利用して複数のタスクを同時に学習することを目的としている。
このレビューは、これらの課題に対処するために、異なる部分的な監視設定の下でMTLをどのように活用するかに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-25T20:08:41Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Task Uncertainty Loss Reduce Negative Transfer in Asymmetric Multi-task
Feature Learning [0.0]
マルチタスク学習(MTL)は、シングルタスク学習(STL)と比較して全体的なタスクパフォーマンスを向上させることができるが、負の転送(NT)を隠すことができる。
非対称マルチタスク特徴学習(AMTFL)は、損失値の高いタスクが他のタスクを学習するための特徴表現に与える影響を小さくすることで、この問題に対処しようとするアプローチである。
2つのデータセット (画像認識と薬理ゲノミクス) におけるntの例を示し, 課題間の相対的信頼度を捉え, タスク損失の重み付けを行うことにより, この課題に挑戦する。
論文 参考訳(メタデータ) (2020-12-17T13:30:45Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。