論文の概要: On Credit Assignment in Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.03292v1
- Date: Mon, 7 Mar 2022 11:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:11:42.085921
- Title: On Credit Assignment in Hierarchical Reinforcement Learning
- Title(参考訳): 階層的強化学習におけるクレジット割り当てについて
- Authors: Joery A. de Vries, Thomas M. Moerland, Aske Plaat
- Abstract要約: 階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
例えば、1ステップの階層的なバックアップは、従来のマルチステップのバックアップとして、時間の経過とともに$n$のスキップ接続が可能であることを示す。
我々は新しい階層型アルゴリズム Hier$Q_k(lambda)$ を開発し、これは階層型クレジット代入だけでエージェントのパフォーマンスを向上できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) has held longstanding promise to
advance reinforcement learning. Yet, it has remained a considerable challenge
to develop practical algorithms that exhibit some of these promises. To improve
our fundamental understanding of HRL, we investigate hierarchical credit
assignment from the perspective of conventional multistep reinforcement
learning. We show how e.g., a 1-step `hierarchical backup' can be seen as a
conventional multistep backup with $n$ skip connections over time connecting
each subsequent state to the first independent of actions inbetween.
Furthermore, we find that generalizing hierarchy to multistep return estimation
methods requires us to consider how to partition the environment trace, in
order to construct backup paths. We leverage these insight to develop a new
hierarchical algorithm Hier$Q_k(\lambda)$, for which we demonstrate that
hierarchical credit assignment alone can already boost agent performance (i.e.,
when eliminating generalization or exploration). Altogether, our work yields
fundamental insight into the nature of hierarchical backups and distinguishes
this as an additional basis for reinforcement learning research.
- Abstract(参考訳): 階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
しかし、これらの約束のいくつかを示す実用的なアルゴリズムを開発することは、依然としてかなりの課題である。
HRLの基本的な理解を深めるために,従来の多段階強化学習の観点から階層的信用割当を検討する。
例えば、1ステップの‘階層的バックアップ’を従来のマルチステップバックアップとして見る場合、次の各状態と、その間の最初の独立したアクションを接続する時間に対して、$n$のスキップ接続を持つ方法を示す。
さらに,階層構造を多段階回帰推定法に一般化するには,バックアップパスを構築するために環境トレースを分割する方法を検討する必要がある。
我々はこれらの洞察を活用して新しい階層的アルゴリズムであるHier$Q_k(\lambda)$を開発する。
全体として、私たちの研究は階層的バックアップの性質に関する基本的な洞察を与え、強化学習研究のための追加の基盤として区別します。
関連論文リスト
- Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文 参考訳(メタデータ) (2022-03-23T19:17:22Z) - HCV: Hierarchy-Consistency Verification for Incremental
Implicitly-Refined Classification [48.68128465443425]
人間は生涯にわたって階層的な知識を学び蓄積する。
現在の漸進的な学習手法には、新しい概念を古い概念に関連付けることによって概念階層を構築する能力がない。
本稿では,既存の継続学習手法の強化を目的とした階層一貫性検証(HCV)を提案する。
論文 参考訳(メタデータ) (2021-10-21T13:54:00Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。