論文の概要: Hierarchical Average-Reward Linearly-solvable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2407.06690v1
- Date: Tue, 9 Jul 2024 09:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:36:32.243134
- Title: Hierarchical Average-Reward Linearly-solvable Markov Decision Processes
- Title(参考訳): 階層的平均逆線形可解マルコフ決定過程
- Authors: Guillermo Infante, Anders Jonsson, Vicenç Gómez,
- Abstract要約: 線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しいアプローチを提案する。
提案手法では,低レベルのタスクに制限を加えることなく,低レベルのタスクと高レベルのタスクを同時に学習することができる。
実験により,本手法は1桁ないし数桁の平坦な平均逆強化学習より優れることが示された。
- 参考スコア(独自算出の注目度): 11.69049916139847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a novel approach to hierarchical reinforcement learning for Linearly-solvable Markov Decision Processes (LMDPs) in the infinite-horizon average-reward setting. Unlike previous work, our approach allows learning low-level and high-level tasks simultaneously, without imposing limiting restrictions on the low-level tasks. Our method relies on partitions of the state space that create smaller subtasks that are easier to solve, and the equivalence between such partitions to learn more efficiently. We then exploit the compositionality of low-level tasks to exactly represent the value function of the high-level task. Experiments show that our approach can outperform flat average-reward reinforcement learning by one or several orders of magnitude.
- Abstract(参考訳): 本稿では,無限水平平均回帰設定における線形解法マルコフ決定過程(LMDP)の階層的強化学習手法を提案する。
従来の作業とは異なり、我々の手法は低レベルタスクと高レベルタスクを同時に学習することができ、低レベルタスクの制限を課さない。
提案手法は,解くのが容易な小さなサブタスクを生成する状態空間のパーティションと,そのようなパーティション間の等価性がより効率的に学習できる状態空間のパーティションに依存している。
次に、低レベルのタスクの構成性を利用して、高レベルのタスクの値関数を正確に表現する。
実験により,本手法は1桁ないし数桁の平坦な平均逆強化学習より優れることが示された。
関連論文リスト
- A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Globally Optimal Hierarchical Reinforcement Learning for
Linearly-Solvable Markov Decision Processes [0.0]
線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しい手法を提案する。
いくつかの抽象化レベルにおける値関数を表現し、サブタスクの構成性を用いて各パーティションにおける状態の最適値を推定する。
論文 参考訳(メタデータ) (2021-06-29T13:10:08Z) - Hierarchical Representation Learning for Markov Decision Processes [9.904746542801837]
マルコフ決定過程の階層的表現を学習するための新しい手法を提案する。
我々の手法は状態空間をサブセットに分割することで機能し、パーティション間の遷移を実行するためのサブタスクを定義する。
本手法は,ナビゲーション領域において有用な階層表現をうまく学習できることを示し,実証的に検証する。
論文 参考訳(メタデータ) (2021-06-03T07:53:18Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。