論文の概要: DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.05150v1
- Date: Tue, 11 Oct 2022 05:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:18:09.154055
- Title: DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical
Reinforcement Learning
- Title(参考訳): DHRL: 長軸・スパース階層強化学習のためのグラフベースアプローチ
- Authors: Seungjae Lee, Jigang Kim, Inkyu Jang, H. Jin Kim
- Abstract要約: 階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。
従来のHRLアルゴリズムは、環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。
本稿では,階層型強化学習(DHRL)におけるグラフを用いたホライズン分離手法を提案する。
- 参考スコア(独自算出の注目度): 26.973783464706447
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) has made notable progress in
complex control tasks by leveraging temporal abstraction. However, previous HRL
algorithms often suffer from serious data inefficiency as environments get
large. The extended components, $i.e.$, goal space and length of episodes,
impose a burden on either one or both high-level and low-level policies since
both levels share the total horizon of the episode. In this paper, we present a
method of Decoupling Horizons Using a Graph in Hierarchical Reinforcement
Learning (DHRL) which can alleviate this problem by decoupling the horizons of
high-level and low-level policies and bridging the gap between the length of
both horizons using a graph. DHRL provides a freely stretchable high-level
action interval, which facilitates longer temporal abstraction and faster
training in complex tasks. Our method outperforms state-of-the-art HRL
algorithms in typical HRL environments. Moreover, DHRL achieves long and
complex locomotion and manipulation tasks.
- Abstract(参考訳): 階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。
しかし、従来のHRLアルゴリズムは環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。
拡張されたコンポーネントである$i.e.$、ゴールスペースとエピソードの長さは、両方のレベルがエピソード全体の地平線を共有しているため、高レベルと低レベルの両方のポリシーに負担を課す。
本稿では,階層強化学習(dhrl)におけるグラフを用いた地平線分離手法を提案する。高レベル・低レベル政策の地平線を分離し,グラフを用いて両地平線の長さの差を橋渡しすることで,この問題を軽減できる。
DHRLは、より長い時間的抽象化と複雑なタスクの高速なトレーニングを容易にする、自由に拡張可能なハイレベルアクションインターバルを提供する。
提案手法は,典型的なHRL環境において,最先端のHRLアルゴリズムより優れている。
さらに、DHRLは長く複雑な移動と操作を行う。
関連論文リスト
- RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Hierarchical Reinforcement Learning for Power Network Topology Control [22.203574989348773]
高次元行動空間での学習は、現実世界のシステムに強化学習を適用する上で重要な課題である。
本稿では,RL法による電力ネットワーク制御の可能性について検討する。
論文 参考訳(メタデータ) (2023-11-03T12:33:00Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [13.61250415783271]
従来のRLとメタRLを組み合わせた原則的ハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、長い水平およびアウト・オブ・ディストリビューションのタスクに対してより累積的な報酬を得ることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Learning to Solve Combinatorial Graph Partitioning Problems via
Efficient Exploration [72.15369769265398]
実験により、ECORDは最大カット問題に対するRLアルゴリズムのための新しいSOTAを実現する。
最も近い競合と比較して、ECORDは最適性ギャップを最大73%削減する。
論文 参考訳(メタデータ) (2022-05-27T17:13:10Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Hierarchical Reinforcement Learning with Optimal Level Synchronization
based on a Deep Generative Model [4.266866385061998]
HRLの問題のひとつは、それぞれのレベルポリシーを、その経験から最適なデータ収集でトレーニングする方法です。
本稿では,高次生成モデルを用いたオフポリシー補正手法を用いて,最適レベルの同期をサポートする新しいHRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-17T05:02:25Z) - Temporal-adaptive Hierarchical Reinforcement Learning [7.571460904033682]
階層的強化学習(HRL)は、強化学習における大規模かつスパースな報酬問題に対処するのに役立つ。
本稿では,時相ゲートを用いて高レベル政策決定頻度を適応的に制御する,時相適応型階層型ポリシー学習(TEMPLE)構造を提案する。
TEMPLEの構造をPPOでトレーニングし、2次元の部屋、Mujocoタスク、Atariゲームを含む様々な環境で性能をテストする。
論文 参考訳(メタデータ) (2020-02-06T02:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。