論文の概要: Provable Hierarchy-Based Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.09507v1
- Date: Mon, 18 Oct 2021 17:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:33:57.567311
- Title: Provable Hierarchy-Based Meta-Reinforcement Learning
- Title(参考訳): 証明可能な階層型メタ強化学習
- Authors: Kurtland Chua, Qi Lei, Jason D. Lee
- Abstract要約: HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
- 参考スコア(独自算出の注目度): 50.17896588738377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning (HRL) has seen widespread interest as an
approach to tractable learning of complex modular behaviors. However, existing
work either assume access to expert-constructed hierarchies, or use
hierarchy-learning heuristics with no provable guarantees. To address this gap,
we analyze HRL in the meta-RL setting, where a learner learns latent
hierarchical structure during meta-training for use in a downstream task. We
consider a tabular setting where natural hierarchical structure is embedded in
the transition dynamics. Analogous to supervised meta-learning theory, we
provide "diversity conditions" which, together with a tractable optimism-based
algorithm, guarantee sample-efficient recovery of this natural hierarchy.
Furthermore, we provide regret bounds on a learner using the recovered
hierarchy to solve a meta-test task. Our bounds incorporate common notions in
HRL literature such as temporal and state/action abstractions, suggesting that
our setting and analysis capture important features of HRL in practice.
- Abstract(参考訳): 階層的強化学習(HRL)は、複雑なモジュラー動作の抽出可能な学習方法として広く関心を集めている。
しかしながら、既存の作業では、エキスパート構成階層へのアクセスを想定するか、証明可能な保証なしで階層学習ヒューリスティックを使用するかのどちらかである。
このギャップに対処するために、学習者が下流タスクで使用するメタトレーニング中に潜在階層構造を学習するメタRL設定でHRLを解析する。
遷移ダイナミクスに自然な階層構造が埋め込まれた表的な設定を考える。
教師付きメタラーニング理論と同様に、我々は、扱いやすい楽観主義に基づくアルゴリズムとともに、この自然な階層のサンプル効率の回復を保証する「多様性条件」を提供する。
さらに,学習者に対して,回収した階層を用いてメタテストタスクを解くための後悔の限度を与える。
我々の境界は、時間的・状態/行動的抽象化のようなHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
関連論文リスト
- Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。
我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文 参考訳(メタデータ) (2024-10-01T22:16:22Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Causality-driven Hierarchical Structure Discovery for Reinforcement
Learning [36.03953383550469]
因果型階層型強化学習フレームワークCDHRLを提案する。
我々はCDHRLが因果性駆動パラダイムによる探索効率を著しく向上させることを示した。
2D-MinecraftとEdenの2つの複雑な環境における結果から、CDHRLは因果性駆動パラダイムによる探索効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:42:48Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - On Credit Assignment in Hierarchical Reinforcement Learning [0.0]
階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
例えば、1ステップの階層的なバックアップは、従来のマルチステップのバックアップとして、時間の経過とともに$n$のスキップ接続が可能であることを示す。
我々は新しい階層型アルゴリズム Hier$Q_k(lambda)$ を開発し、これは階層型クレジット代入だけでエージェントのパフォーマンスを向上できることを示す。
論文 参考訳(メタデータ) (2022-03-07T11:13:09Z) - Alchemy: A structured task distribution for meta-reinforcement learning [52.75769317355963]
本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。
Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。
本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
論文 参考訳(メタデータ) (2021-02-04T23:40:44Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z) - Temporal-adaptive Hierarchical Reinforcement Learning [7.571460904033682]
階層的強化学習(HRL)は、強化学習における大規模かつスパースな報酬問題に対処するのに役立つ。
本稿では,時相ゲートを用いて高レベル政策決定頻度を適応的に制御する,時相適応型階層型ポリシー学習(TEMPLE)構造を提案する。
TEMPLEの構造をPPOでトレーニングし、2次元の部屋、Mujocoタスク、Atariゲームを含む様々な環境で性能をテストする。
論文 参考訳(メタデータ) (2020-02-06T02:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。