Fugu-MT 論文翻訳(概要): DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical Reinforcement Learning

論文の概要: DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.05150v1
Date: Tue, 11 Oct 2022 05:09:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 14:18:09.154055
Title: DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical Reinforcement Learning
Title（参考訳）: DHRL: 長軸・スパース階層強化学習のためのグラフベースアプローチ
Authors: Seungjae Lee, Jigang Kim, Inkyu Jang, H. Jin Kim
Abstract要約: 階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。従来のHRLアルゴリズムは、環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。本稿では,階層型強化学習(DHRL)におけるグラフを用いたホライズン分離手法を提案する。
参考スコア（独自算出の注目度）: 26.973783464706447
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Hierarchical Reinforcement Learning (HRL) has made notable progress in complex control tasks by leveraging temporal abstraction. However, previous HRL algorithms often suffer from serious data inefficiency as environments get large. The extended components, $i.e.$, goal space and length of episodes, impose a burden on either one or both high-level and low-level policies since both levels share the total horizon of the episode. In this paper, we present a method of Decoupling Horizons Using a Graph in Hierarchical Reinforcement Learning (DHRL) which can alleviate this problem by decoupling the horizons of high-level and low-level policies and bridging the gap between the length of both horizons using a graph. DHRL provides a freely stretchable high-level action interval, which facilitates longer temporal abstraction and faster training in complex tasks. Our method outperforms state-of-the-art HRL algorithms in typical HRL environments. Moreover, DHRL achieves long and complex locomotion and manipulation tasks.
Abstract（参考訳）: 階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。しかし、従来のHRLアルゴリズムは環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。拡張されたコンポーネントである$i.e.$、ゴールスペースとエピソードの長さは、両方のレベルがエピソード全体の地平線を共有しているため、高レベルと低レベルの両方のポリシーに負担を課す。本稿では,階層強化学習(dhrl)におけるグラフを用いた地平線分離手法を提案する。高レベル・低レベル政策の地平線を分離し,グラフを用いて両地平線の長さの差を橋渡しすることで,この問題を軽減できる。 DHRLは、より長い時間的抽象化と複雑なタスクの高速なトレーニングを容易にする、自由に拡張可能なハイレベルアクションインターバルを提供する。提案手法は,典型的なHRL環境において,最先端のHRLアルゴリズムより優れている。さらに、DHRLは長く複雑な移動と操作を行う。

関連論文リスト

Horizon Reduction Makes RL Scalable [78.67071359991218]
オフライン強化学習(RL)アルゴリズムのスケーラビリティについて検討する。通常のオフラインRLデータセットの最大1000倍のデータセットを使用します。オフラインRLのスケール不足の主な原因は地平線にあることを示す。
論文参考訳（メタデータ） (2025-06-04T17:06:54Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。 HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文参考訳（メタデータ） (2025-03-25T22:52:46Z)
HG2P: Hippocampus-inspired High-reward Graph and Model-Free Q-Gradient Penalty for Path Planning and Motion Control [12.49955844499153]
ゴール条件付き階層強化学習(HRL)は、複雑な到達タスクを単純なサブゴール条件付きタスクのシーケンスに分解する。本稿では,脳機構をグラフベースで計画するHRLを橋渡しし,海馬-線条体様の二重制御系仮説を提案する。
論文参考訳（メタデータ） (2024-10-12T11:46:31Z)
Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies [26.915223518488016]
階層強化学習(HRL)は、それらをサブゴールに分解することで複雑な長距離タスクに対処する。本稿では,計算効率も向上する単純かつ効果的なアルゴリズムである双方向到達型階層型ポリシー最適化(BrHPO)を提案する。様々な長期タスクの実験結果からは、BrHPOは他の最先端のHRLベースラインよりも優れており、探索効率と堅牢性が著しく高いことが示されている。
論文参考訳（メタデータ） (2024-06-26T04:05:04Z)
PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer [47.924941959320996]
我々はPlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。 PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
論文参考訳（メタデータ） (2024-06-10T20:59:53Z)
Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity [4.917399520581689]
2段階強化学習 (RL) は2段階間問題を特徴とする。低レベルの凸性の本質的な過度勾配を特徴付ける。モデルベースとモデルフリーの2段階強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-30T05:24:20Z)
RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文参考訳（メタデータ） (2024-02-29T16:07:22Z)
Hierarchical Reinforcement Learning for Power Network Topology Control [22.203574989348773]
高次元行動空間での学習は、現実世界のシステムに強化学習を適用する上で重要な課題である。本稿では,RL法による電力ネットワーク制御の可能性について検討する。
論文参考訳（メタデータ） (2023-11-03T12:33:00Z)
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文参考訳（メタデータ） (2022-11-20T21:48:25Z)
Learning to Solve Combinatorial Graph Partitioning Problems via Efficient Exploration [72.15369769265398]
実験により、ECORDは最大カット問題に対するRLアルゴリズムのための新しいSOTAを実現する。最も近い競合と比較して、ECORDは最適性ギャップを最大73%削減する。
論文参考訳（メタデータ） (2022-05-27T17:13:10Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Hierarchical Reinforcement Learning with Optimal Level Synchronization based on a Deep Generative Model [4.266866385061998]
HRLの問題のひとつは、それぞれのレベルポリシーを、その経験から最適なデータ収集でトレーニングする方法です。本稿では,高次生成モデルを用いたオフポリシー補正手法を用いて,最適レベルの同期をサポートする新しいHRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-17T05:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。