Fugu-MT 論文翻訳(概要): Adversarially Guided Subgoal Generation for Hierarchical Reinforcement Learning

論文の概要: Adversarially Guided Subgoal Generation for Hierarchical Reinforcement Learning

arxiv url: http://arxiv.org/abs/2201.09635v1
Date: Mon, 24 Jan 2022 12:30:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-25 23:07:54.382067
Title: Adversarially Guided Subgoal Generation for Hierarchical Reinforcement Learning
Title（参考訳）: 階層型強化学習のための逆案内サブゴアル生成
Authors: Vivienne Huiling Wang, Joni Pajarinen, Tinghuai Wang, Joni K\"am\"ar\"ainen
Abstract要約: 本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
参考スコア（独自算出の注目度）: 5.514236598436977
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hierarchical reinforcement learning (HRL) proposes to solve difficult tasks by performing decision-making and control at successively higher levels of temporal abstraction. However, off-policy training in HRL often suffers from the problem of non-stationary high-level decision making since the low-level policy is constantly changing. In this paper, we propose a novel HRL approach for mitigating the non-stationarity by adversarially enforcing the high-level policy to generate subgoals compatible with the current instantiation of the low-level policy. In practice, the adversarial learning can be implemented by training a simple discriminator network concurrently with the high-level policy which determines the compatibility level of subgoals. Experiments with state-of-the-art algorithms show that our approach significantly improves learning efficiency and overall performance of HRL in various challenging continuous control tasks.
Abstract（参考訳）: 階層的強化学習 (HRL) は, 時間的抽象のレベルを連続的に高め, 意思決定と制御を行うことにより, 困難な課題を解決することを提案する。しかしながら、HRLの非政治訓練は、低レベルの政策が常に変化しているため、非定常的な高レベルの意思決定の問題に悩まされることが多い。本稿では,低レベル政策の現在のインスタンス化に対応するサブゴールを生成するために,高レベル政策を逆行することで,非定常性を緩和する新しいHRL手法を提案する。実際、敵対的学習は、単純な判別子ネットワークと、サブゴールの互換性レベルを決定するハイレベルポリシーを同時に訓練することによって実現することができる。最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。

関連論文リスト

Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.894271401094615]
HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文参考訳（メタデータ） (2025-05-27T20:38:44Z)
Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。 HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文参考訳（メタデータ） (2024-06-21T13:17:33Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文参考訳（メタデータ） (2024-02-10T04:54:15Z)
Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。 DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文参考訳（メタデータ） (2023-11-01T03:32:13Z)
Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout [16.454305212398328]
モデルベースロールアウト(GCMR)を用いたガイド協調という,目標条件付き階層型強化学習(HRL)フレームワークを提案する。 GCMRは、フォワードダイナミクスを利用して層間情報同期と協調をブリッジすることを目的としている。実験により,提案したGCMRフレームワークをHIGLのアンタングル変種(ACLG)に組み込むことにより,より安定かつ堅牢な政策改善が得られた。
論文参考訳（メタデータ） (2023-09-24T00:13:16Z)
Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文参考訳（メタデータ） (2022-11-08T04:06:23Z)
Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入 HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文参考訳（メタデータ） (2021-12-06T15:11:19Z)
Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。 HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文参考訳（メタデータ） (2021-10-30T09:26:45Z)
Efficient Hierarchical Exploration with Stable Subgoal Representation Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文参考訳（メタデータ） (2021-05-31T07:28:59Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning [22.319208517053816]
目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。 HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
論文参考訳（メタデータ） (2020-06-20T03:34:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。