論文の概要: Meta-Reinforcement Learning via Exploratory Task Clustering
- arxiv url: http://arxiv.org/abs/2302.07958v1
- Date: Wed, 15 Feb 2023 21:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:48:51.512473
- Title: Meta-Reinforcement Learning via Exploratory Task Clustering
- Title(参考訳): 探索的タスククラスタリングによるメタ強化学習
- Authors: Zhendong Chu, Hongning Wang
- Abstract要約: 本研究は,分譲・分譲によるタスク構造発見のための専門的な探索政策を開発する。
識別されたクラスタの知識は、タスク固有の情報の検索スペースを狭めるのに役立つ。
様々な MuJoCo タスクの実験により、提案手法は、報酬と状態のダイナミクスの両方において、クラスタ構造を効果的に解き放つことができることを示した。
- 参考スコア(独自算出の注目度): 43.936406999765886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-reinforcement learning (meta-RL) aims to quickly solve new tasks by
leveraging knowledge from prior tasks. However, previous studies often assume a
single mode homogeneous task distribution, ignoring possible structured
heterogeneity among tasks. Leveraging such structures can better facilitate
knowledge sharing among related tasks and thus improve sample efficiency. In
this paper, we explore the structured heterogeneity among tasks via clustering
to improve meta-RL. We develop a dedicated exploratory policy to discover task
structures via divide-and-conquer. The knowledge of the identified clusters
helps to narrow the search space of task-specific information, leading to more
sample efficient policy adaptation. Experiments on various MuJoCo tasks showed
the proposed method can unravel cluster structures effectively in both rewards
and state dynamics, proving strong advantages against a set of state-of-the-art
baselines.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、従来のタスクからの知識を活用することで、新しいタスクを迅速に解決することを目的としている。
しかし、以前の研究では、タスク間の構造的不均一性を無視した単一モードの均質なタスク分布を仮定することが多かった。
このような構造を活用することで、関連するタスク間の知識共有が容易になり、サンプル効率が向上する。
本稿では,メタRLを改善するためにクラスタリングによるタスク間の構造的不均一性を検討する。
我々は,分断・分断によるタスク構造発見のための専門的な探索政策を開発する。
識別されたクラスタの知識は、タスク固有の情報の検索スペースを狭めるのに役立ち、より効率的なポリシー適応をもたらす。
様々な MuJoCo タスクの実験により、提案手法は、報酬と状態ダイナミクスの両方においてクラスタ構造を効果的に解き放つことができ、最先端のベースラインに対する強力なアドバンテージが証明された。
関連論文リスト
- Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - EEML: Ensemble Embedded Meta-learning [5.9514420658483935]
本稿では,事前知識を多種多様な専門家に整理するために,マルチモデルアンサンブルを明示的に活用する組込みメタ学習アルゴリズム(EEML)を提案する。
トレーニングプロセスのエキスパートに多様なタスクを提供し、テストフェーズで専門家がどのように協力するかを指示するために、クラスタメカニズムを組み込むタスクに依存しています。
実験結果から,提案手法は,最近の最先端技術に優れることが示された。
論文 参考訳(メタデータ) (2022-06-18T12:37:17Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Automated Relational Meta-learning [95.02216511235191]
本稿では,クロスタスク関係を自動的に抽出し,メタ知識グラフを構築する自動リレーショナルメタ学習フレームワークを提案する。
我々は,2次元玩具の回帰と少数ショット画像分類に関する広範な実験を行い,ARMLが最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-03T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。