論文の概要: Accelerating Task Generalisation with Multi-Level Hierarchical Options
- arxiv url: http://arxiv.org/abs/2411.02998v1
- Date: Tue, 05 Nov 2024 11:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:59.879690
- Title: Accelerating Task Generalisation with Multi-Level Hierarchical Options
- Title(参考訳): マルチレベル階層型オプションによるタスク一般化の高速化
- Authors: Thomas P Cannon, Özgür Simsek,
- Abstract要約: フラクチャクラスタオプション(FraCOs)は、難解な一般化タスクにおける最先端のパフォーマンスを達成する階層的な強化学習手法である。
いくつかの複雑な手続き的に生成された環境で、最先端の深層強化学習アルゴリズムに対してFraCOを評価した。
- 参考スコア(独自算出の注目度): 1.6574413179773757
- License:
- Abstract: Creating reinforcement learning agents that generalise effectively to new tasks is a key challenge in AI research. This paper introduces Fracture Cluster Options (FraCOs), a multi-level hierarchical reinforcement learning method that achieves state-of-the-art performance on difficult generalisation tasks. FraCOs identifies patterns in agent behaviour and forms options based on the expected future usefulness of those patterns, enabling rapid adaptation to new tasks. In tabular settings, FraCOs demonstrates effective transfer and improves performance as it grows in hierarchical depth. We evaluate FraCOs against state-of-the-art deep reinforcement learning algorithms in several complex procedurally generated environments. Our results show that FraCOs achieves higher in-distribution and out-of-distribution performance than competitors.
- Abstract(参考訳): 新しいタスクを効果的に一般化する強化学習エージェントを作成することは、AI研究における重要な課題である。
本稿では,難解な一般化タスクにおける最先端性能を実現する階層的強化学習手法であるフラクチャクラスタオプション(FraCOs)を紹介する。
FraCOsはエージェントの振る舞いのパターンを特定し、これらのパターンの今後の有用性に基づいたオプションを作成し、新しいタスクへの迅速な適応を可能にする。
表の設定では、FraCOsは効果的な転送を示し、階層的な深さで成長するにつれてパフォーマンスを向上させる。
いくつかの複雑な手続き的に生成された環境で、最先端の深層強化学習アルゴリズムに対してFraCOを評価した。
以上の結果から,FraCOsは競争相手よりも流通性能とアウト・オブ・ディストリビューション性能が高いことがわかった。
関連論文リスト
- Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Wasserstein Diversity-Enriched Regularizer for Hierarchical
Reinforcement Learning [2.4236602474594635]
We propose a novel task-agnostic regularizer called the Wasserstein Diversity-Enriched regularizer (WDER)。
提案するWDERは,既存手法の損失関数に容易に組み込むことができ,性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-08-02T07:45:24Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Meta-Reinforcement Learning via Exploratory Task Clustering [43.936406999765886]
本研究は,分譲・分譲によるタスク構造発見のための専門的な探索政策を開発する。
識別されたクラスタの知識は、タスク固有の情報の検索スペースを狭めるのに役立つ。
様々な MuJoCo タスクの実験により、提案手法は、報酬と状態のダイナミクスの両方において、クラスタ構造を効果的に解き放つことができることを示した。
論文 参考訳(メタデータ) (2023-02-15T21:42:38Z) - Reward-Predictive Clustering [20.82575016038573]
ディープラーニング設定への報酬予測状態抽象化の適用を可能にするクラスタリングアルゴリズムを提供する。
収束定理とシミュレーションは、結果として生じる報酬予測深いネットワークがエージェントの入力を最大に圧縮することを示している。
論文 参考訳(メタデータ) (2022-11-07T03:13:26Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。