Fugu-MT 論文翻訳(概要): Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple Baseline

論文の概要: Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple Baseline

arxiv url: http://arxiv.org/abs/2205.14495v1
Date: Sat, 28 May 2022 17:59:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 16:52:47.331494
Title: Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple Baseline
Title（参考訳）: タスク非依存型継続的強化学習: 単純なベースラインの評価
Authors: Massimo Caccia, Jonas Mueller, Taesup Kim, Laurent Charlin, Rasool Fakoor
Abstract要約: タスク非依存型連続強化学習(TACRL)について検討する。 TACRL法と従来の文献で規定されたソフトな上界との比較を行った。 3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドの克服が驚くべき結果となった。
参考スコア（独自算出の注目度）: 27.474011433615317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study task-agnostic continual reinforcement learning (TACRL) in which standard RL challenges are compounded with partial observability stemming from task agnosticism, as well as additional difficulties of continual learning (CL), i.e., learning on a non-stationary sequence of tasks. Here we compare TACRL methods with their soft upper bounds prescribed by previous literature: multi-task learning (MTL) methods which do not have to deal with non-stationary data distributions, as well as task-aware methods, which are allowed to operate under full observability. We consider a previously unexplored and straightforward baseline for TACRL, replay-based recurrent RL (3RL), in which we augment an RL algorithm with recurrent mechanisms to address partial observability and experience replay mechanisms to address catastrophic forgetting in CL. Studying empirical performance in a sequence of RL tasks, we find surprising occurrences of 3RL matching and overcoming the MTL and task-aware soft upper bounds. We lay out hypotheses that could explain this inflection point of continual and task-agnostic learning research. Our hypotheses are empirically tested in continuous control tasks via a large-scale study of the popular multi-task and continual learning benchmark Meta-World. By analyzing different training statistics including gradient conflict, we find evidence that 3RL's outperformance stems from its ability to quickly infer how new tasks relate with the previous ones, enabling forward transfer.
Abstract（参考訳）: 標準のrl課題にタスク非依存主義による部分的可観測性が組み合わさったタスク非依存型連続強化学習(tacrl)と、非定常的なタスク列で学習する継続学習(cl)のさらなる困難について検討する。本稿では,TACRL法と従来の文献で規定したソフトな上限値を比較する。非定常データ分布を扱う必要のないマルチタスク学習(MTL)法と,完全な可観測性の下で動作可能なタスク認識法である。 TACRL(replay-based recurrent RL, replay-based recurrent RL, 3RL)の既往のベースラインとして,部分観測可能性に対処する再帰機構とCLの破滅的忘れに対処する経験的再生機構をRLアルゴリズムに拡張した。一連のRLタスクにおける経験的性能について検討し、3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドを克服する驚くべき結果を得た。継続的かつタスクに依存しない学習研究のこの転換点を説明する仮説を提示する。我々の仮説は、多タスクおよび連続学習ベンチマークMeta-Worldの大規模研究を通じて、連続制御タスクにおいて経験的に検証されている。勾配コンフリクトを含む異なるトレーニング統計を解析することにより、3RLのアウトパフォーマンスが、新しいタスクが前のタスクとどのように関係しているかを素早く推測し、転送を可能にする能力に起因することを示す。

関連論文リスト

Robust-Multi-Task Gradient Boosting [6.718184400443239]
マルチタスク学習(MTL)は、タスク間の共有情報を利用して一般化を改善する効果を示す。本稿では,R-MTGB(Robust-Multi-Task Gradient Boosting)を提案する。 R-MTGBは学習プロセスを3つのブロックに構成する:(1)共有パターンの学習、(2)正規化パラメータを持つ逐次タスクを外れ値と非外れ値に分割、(3)微調整タスク固有の予測器。
論文参考訳（メタデータ） (2025-07-15T15:31:12Z)
Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.000144830397911]
連続学習(CL)は、ディープニューラルネットワークの現代的応用において重要なトピックである。本稿では,H-embedding(H-embedding)という名前の伝達可能性を考慮したタスク埋め込みを提案し,その指導の下でハイパーネットをトレーニングし,CLタスクのタスク条件付きモデル重みを学習する。
論文参考訳（メタデータ） (2025-02-17T09:52:19Z)
Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文参考訳（メタデータ） (2024-12-29T03:34:53Z)
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。 GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文参考訳（メタデータ） (2023-12-26T07:02:12Z)
In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文参考訳（メタデータ） (2022-01-11T18:44:17Z)
Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文参考訳（メタデータ） (2021-11-09T18:49:45Z)
Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文参考訳（メタデータ） (2021-08-08T19:32:44Z)
Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文参考訳（メタデータ） (2020-07-24T14:44:46Z)
Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文参考訳（メタデータ） (2020-04-29T02:32:04Z)
Learning Context-aware Task Reasoning for Efficient Meta-reinforcement Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文参考訳（メタデータ） (2020-03-03T07:38:53Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。