論文の概要: The Logical Options Framework
- arxiv url: http://arxiv.org/abs/2102.12571v1
- Date: Wed, 24 Feb 2021 21:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:57:16.422114
- Title: The Logical Options Framework
- Title(参考訳): Logical Options Framework
- Authors: Brandon Araki, Xiao Li, Kiran Vodrahalli, Jonathan DeCastro, Micah J.
Fry, Daniela Rus
- Abstract要約: 我々は,満足し,最適な,構成可能な政策を学習する階層的な強化学習フレームワークを導入する。
我々は,lofの学習方針が10~50のリトレーニングステップで未熟なタスクを満たすためにどのように構成されるかを示す。
- 参考スコア(独自算出の注目度): 40.3712702971575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning composable policies for environments with complex rules and tasks is
a challenging problem. We introduce a hierarchical reinforcement learning
framework called the Logical Options Framework (LOF) that learns policies that
are satisfying, optimal, and composable. LOF efficiently learns policies that
satisfy tasks by representing the task as an automaton and integrating it into
learning and planning. We provide and prove conditions under which LOF will
learn satisfying, optimal policies. And lastly, we show how LOF's learned
policies can be composed to satisfy unseen tasks with only 10-50 retraining
steps. We evaluate LOF on four tasks in discrete and continuous domains,
including a 3D pick-and-place environment.
- Abstract(参考訳): 複雑なルールやタスクを持つ環境で構成可能なポリシーを学ぶことは難しい問題です。
満足し、最適で、構成可能なポリシーを学ぶ「ロジカルオプションフレームワーク(LOF)」と呼ばれる階層的強化学習フレームワークを紹介します。
LOFはタスクをオートマトンとして表現し、学習と計画に統合することで、タスクを満たすポリシーを効率的に学習する。
我々は、LOFが満足のいく最適なポリシーを学習する条件を提供し、証明する。
最後に、LOFの学習ポリシーがどのように構成され、目に見えないタスクを10~50のトレーニングステップで満たせるかを示す。
3Dピック&プレイス環境を含む離散および連続ドメインの4つのタスクでLOFを評価します。
関連論文リスト
- Planning with a Learned Policy Basis to Optimally Solve Complex Tasks [26.621462241759133]
本稿では,後継機能を用いて政策ベースを学習し,その中の各(サブ)政治が明確に定義されたサブプロブレムを解決することを提案する。
同じサブプロブレムの集合を含む有限状態オートマトン(FSA)によって記述されるタスクでは、これらの(サブ)ポリケーションの組み合わせを使用して、追加の学習なしに最適な解を生成することができる。
論文 参考訳(メタデータ) (2024-03-22T15:51:39Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。