論文の概要: On the Role of Weight Sharing During Deep Option Learning
- arxiv url: http://arxiv.org/abs/1912.13408v2
- Date: Thu, 6 Feb 2020 06:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:13:43.761744
- Title: On the Role of Weight Sharing During Deep Option Learning
- Title(参考訳): 深層学習における重み合いの役割について
- Authors: Matthew Riemer, Ignacio Cases, Clemens Rosenbaum, Miao Liu, Gerald
Tesauro
- Abstract要約: オプションフレームワークは、強化学習において時間的に拡張されたアクションを構築するための一般的なアプローチである。
過去の研究は、オプションクリティカルの各コンポーネントが独立したパラメータを持つというキーとなる仮定を下している。
我々は、各更新で完全なアーキテクチャを最適化するオプション批判的および階層的オプション批判的トレーニングのより一般的な拡張について検討する。
- 参考スコア(独自算出の注目度): 21.216780543401235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The options framework is a popular approach for building temporally extended
actions in reinforcement learning. In particular, the option-critic
architecture provides general purpose policy gradient theorems for learning
actions from scratch that are extended in time. However, past work makes the
key assumption that each of the components of option-critic has independent
parameters. In this work we note that while this key assumption of the policy
gradient theorems of option-critic holds in the tabular case, it is always
violated in practice for the deep function approximation setting. We thus
reconsider this assumption and consider more general extensions of
option-critic and hierarchical option-critic training that optimize for the
full architecture with each update. It turns out that not assuming parameter
independence challenges a belief in prior work that training the policy over
options can be disentangled from the dynamics of the underlying options. In
fact, learning can be sped up by focusing the policy over options on states
where options are actually likely to terminate. We put our new algorithms to
the test in application to sample efficient learning of Atari games, and
demonstrate significantly improved stability and faster convergence when
learning long options.
- Abstract(参考訳): options frameworkは、強化学習で時間的に拡張されたアクションを構築するための一般的なアプローチである。
特に、option-critic architectureは、時間内に拡張されたアクションをスクラッチから学習するための汎用ポリシー勾配定理を提供する。
しかし、過去の研究は、オプションクリティカルの各コンポーネントが独立したパラメータを持つというキーとなる仮定を下している。
この研究では、表向きの場合において、オプション批判のポリシー勾配定理のこの重要な仮定は、常に深い関数近似の設定において破られることに注意する。
したがって、この仮定を再考し、更新毎にアーキテクチャ全体を最適化するオプション批判および階層的オプション批判トレーニングのより一般的な拡張を検討する。
パラメータ独立を仮定しないことは、オプションよりもポリシーを訓練することは、基本となるオプションのダイナミクスから切り離すことができるという事前の作業に対する信念に挑戦する。
実際、学習は、実際に選択肢が終了しそうな州において、オプションよりもポリシーに集中することで加速することができる。
我々は,Atariゲームの効率的な学習のサンプリングに新たなアルゴリズムを応用し,長い選択肢を学習する際の安定性と収束性を大幅に向上させることを示した。
関連論文リスト
- SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments [18.081732498034047]
この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
論文 参考訳(メタデータ) (2024-07-26T17:59:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Iterative Option Discovery for Planning, by Planning [15.731719079249814]
オプションイテレーション(Option Iteration)と呼ばれるオプション発見に類似したアプローチを提案する。
任意の場所で検索結果にマッチするように訓練された単一の強力なポリシーを学ぶのではなく、オプションイテレーションは、各状態が遭遇するたびに、セット内の少なくとも1つのポリシーが、将来に向けて検索結果にマッチするように訓練された一連のオプションポリシーを学ぶ。
このようなローカルな強力なポリシーの集合を学習することで、より優れた選択肢がより良い検索結果に導かれるように、検索アルゴリズムをガイドすることができる。
論文 参考訳(メタデータ) (2023-10-02T19:03:30Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Data-efficient Hindsight Off-policy Option Learning [20.42535406663446]
データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。
それは、すべての政策コンポーネントを、政治とエンドツーエンドで堅牢に訓練する。
このアプローチは、一般的なベンチマークで既存のオプション学習方法よりも優れています。
論文 参考訳(メタデータ) (2020-07-30T16:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。