論文の概要: Continual Reinforcement Learning with Group Symmetries
- arxiv url: http://arxiv.org/abs/2210.12301v1
- Date: Fri, 21 Oct 2022 23:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:03:36.530012
- Title: Continual Reinforcement Learning with Group Symmetries
- Title(参考訳): 群対称性を用いた連続強化学習
- Authors: Shiqi Liu, Mengdi Xu, Piede Huang, Yongkang Liu, Kentaro Oguchi, Ding
Zhao
- Abstract要約: 既存の強化学習手法は、いくつかのタスクが単純な群演算の下で等価であることを無視する。
本稿では,グループ対称性を持つ新しい連続RLフレームワークを提案する。
提案アルゴリズムは,タスクを異なるグループに高い精度で割り当てると共に,一般化能力の点で高いマージンでベースラインを上回ることを示す。
- 参考スコア(独自算出の注目度): 18.7526848176769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual reinforcement learning (RL) aims to learn a sequence of tasks while
retaining the capability to solve seen tasks and growing a new policy to solve
novel tasks. Existing continual RL methods ignore that some tasks are
equivalent under simple group operations, such as rotations or translations.
They thus extend a new policy for each equivalent task and train the policy
from scratch, resulting in poor sample complexity and generalization
capability. In this work, we propose a novel continual RL framework with group
symmetries, which grows a policy for each group of equivalent tasks instead of
a single task. We introduce a PPO-based RL algorithm with an invariant feature
extractor and a novel task grouping mechanism based on invariant features. We
test our algorithm in realistic autonomous driving scenarios, where each group
is associated with a map configuration. We show that our algorithm assigns
tasks to different groups with high accuracy and outperforms baselines in terms
of generalization capability by a large margin.
- Abstract(参考訳): 連続強化学習(Retinuous reinforcement learning, RL)は、目に見えるタスクを解く能力を維持しつつ、新しいタスクを解くための新しいポリシーを育てながら、一連のタスクを学習することを目的としている。
既存の連続rl法は、あるタスクがローテーションや変換のような単純な群演算の下で等価であることを無視する。
これにより、同等のタスクごとに新しいポリシーを拡張し、スクラッチからポリシーをトレーニングし、結果としてサンプルの複雑さと一般化能力が低下する。
本研究では,一つのタスクではなく,各タスク群に対するポリシーを増大させる群対称性を持つ,新しい連続的なrlフレームワークを提案する。
不変特徴抽出器と,不変特徴に基づく新しいタスクグループ化機構を備えたPPOに基づくRLアルゴリズムを提案する。
我々は,各グループがマップ構成に関連付けられている現実的な自律走行シナリオにおいて,アルゴリズムをテストする。
提案アルゴリズムは,タスクを異なるグループに高い精度で割り当てると共に,一般化能力の点で高いマージンでベースラインを上回ることを示す。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills [17.666749042008178]
本稿では,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
DCMRLは、同じタスク内で同様のタスクコンテキストを取り出し、異なるタスクの異なるタスクコンテキストをプッシュします。
実験により、DCMRLは従来のメタRL法よりも有効であり、より一般化可能な事前経験を持つことが示された。
論文 参考訳(メタデータ) (2023-12-11T16:50:14Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。