Fugu-MT 論文翻訳(概要): Reinforcement Learning with Options

論文の概要: Reinforcement Learning with Options

arxiv url: http://arxiv.org/abs/2403.10855v1
Date: Sat, 16 Mar 2024 08:30:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 21:25:31.285096
Title: Reinforcement Learning with Options
Title（参考訳）: オプションによる強化学習
Authors: Ayoub Ghriss, Masashi Sugiyama, Alessandro Lazaric,
Abstract要約: この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
参考スコア（独自算出の注目度）: 105.82346211739433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The current thesis aims to explore the reinforcement learning field and build on existing methods to produce improved ones to tackle the problem of learning in high-dimensional and complex environments. It addresses such goals by decomposing learning tasks in a hierarchical fashion known as Hierarchical Reinforcement Learning. We start in the first chapter by getting familiar with the Markov Decision Process framework and presenting some of its recent techniques that the following chapters use. We then proceed to build our Hierarchical Policy learning as an answer to the limitations of a single primitive policy. The hierarchy is composed of a manager agent at the top and employee agents at the lower level. In the last chapter, which is the core of this thesis, we attempt to learn lower-level elements of the hierarchy independently of the manager level in what is known as the "Eigenoption". Based on the graph structure of the environment, Eigenoptions allow us to build agents that are aware of the geometric and dynamic properties of the environment. Their decision-making has a special property: it is invariant to symmetric transformations of the environment, allowing as a consequence to greatly reduce the complexity of the learning task.
Abstract（参考訳）: 現在の論文は、強化学習分野を探求し、高次元・複雑な環境における学習の課題に取り組むために、改良された学習手法を構築することを目的としている。階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。第1章では、Markov Decision Processフレームワークに精通し、次の章で使用した最新のテクニックを紹介します。そして、単一の原始的な政策の限界に対する答えとして、階層的な政策学習の構築を進めます。階層はトップのマネージャエージェントと下位の従業員エージェントで構成されています。この論文の核となる最後の章では、"固有オプション(Eigenoption)"として知られるマネージャレベルとは独立して、階層の下位要素を学習しようとします。環境のグラフ構造に基づいて、Eigenoptionsは環境の幾何学的および動的性質を認識したエージェントを構築することができる。環境の対称変換に不変であり、結果として学習タスクの複雑さを大幅に減らすことができる。

関連論文リスト

Unsupervised Hierarchical Skill Discovery [11.230382111014073]
強化学習における教師なしスキルセグメンテーションと階層構造発見の問題点を考察する。そこで本研究では,未学習の軌跡をスキルに分割し,文法に基づく手法を用いて階層構造を導き出す手法を提案する。我々は、CraftaxやMinecraftの完全な修正されていないバージョンを含む高次元のピクセルベースの環境において、我々のアプローチを評価する。
論文参考訳（メタデータ） (2026-01-30T16:41:13Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
High-Order Deep Meta-Learning with Category-Theoretic Interpretation [0.0]
ニューラルネットワーク(NN)がタスクの階層をまたいだ構築、解決、一般化を可能にする新しい階層型ディープラーニングフレームワークを導入する。このアプローチの中心は、Emphvirtualタスクを生成する生成メカニズムである。これにより、フレームワークは独自の情報的タスクグラウンドデータセットを生成することができる。我々は、このアーキテクチャが、自律的に新しい命令型タスクを生成できる次世代NNの基盤になるかもしれないと推測する。
論文参考訳（メタデータ） (2025-07-03T14:01:14Z)
Solving Sokoban using Hierarchical Reinforcement Learning with Landmarks [0.0]
本稿では,パズルゲーム「ソコバン」に適用した新しい階層型強化学習フレームワークを提案する。提案手法は6段階のポリシー階層を構築し,各上位のポリシーが下位のレベルに対してサブゴールを生成する。すべてのサブゴールとポリシーは、ドメインの知識なしに、ゼロからエンドツーエンドに学習されます。
論文参考訳（メタデータ） (2025-04-06T05:30:21Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文参考訳（メタデータ） (2024-07-21T18:10:31Z)
A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文参考訳（メタデータ） (2024-06-21T13:17:33Z)
I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:51Z)
Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文参考訳（メタデータ） (2024-04-15T13:02:00Z)
Composing Reinforcement Learning Policies, with Formal Guarantees [15.690880632229202]
本研究では,2段階構造を持つ環境における設計を制御するための新しいフレームワークを提案する。このフレームワークは、低レベルのタスクと高レベルのタスクに異なる設計テクニックを使用することによって、懸念を分離する。
論文参考訳（メタデータ） (2024-02-21T13:10:58Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文参考訳（メタデータ） (2022-03-10T06:44:24Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Attaining Interpretability in Reinforcement Learning via Hierarchical Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文参考訳（メタデータ） (2021-10-05T05:59:31Z)
Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文参考訳（メタデータ） (2020-03-03T18:56:49Z)
Learning Functionally Decomposed Hierarchies for Continuous Control Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文参考訳（メタデータ） (2020-02-14T10:19:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。