論文の概要: Context-Specific Representation Abstraction for Deep Option Learning
- arxiv url: http://arxiv.org/abs/2109.09876v1
- Date: Mon, 20 Sep 2021 22:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:34:48.299440
- Title: Context-Specific Representation Abstraction for Deep Option Learning
- Title(参考訳): 深層学習のための文脈特化表現抽象化
- Authors: Marwa Abdulhai, Dong-Ki Kim, Matthew Riemer, Miao Liu, Gerald Tesauro,
Jonathan P. How
- Abstract要約: 我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。
CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
- 参考スコア(独自算出の注目度): 43.68681795014662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning has focused on discovering temporally
extended actions, such as options, that can provide benefits in problems
requiring extensive exploration. One promising approach that learns these
options end-to-end is the option-critic (OC) framework. We examine and show in
this paper that OC does not decompose a problem into simpler sub-problems, but
instead increases the size of the search over policy space with each option
considering the entire state space during learning. This issue can result in
practical limitations of this method, including sample inefficient learning. To
address this problem, we introduce Context-Specific Representation Abstraction
for Deep Option Learning (CRADOL), a new framework that considers both temporal
abstraction and context-specific representation abstraction to effectively
reduce the size of the search over policy space. Specifically, our method
learns a factored belief state representation that enables each option to learn
a policy over only a subsection of the state space. We test our method against
hierarchical, non-hierarchical, and modular recurrent neural network baselines,
demonstrating significant sample efficiency improvements in challenging
partially observable environments.
- Abstract(参考訳): 階層的強化学習は、広範囲な探索を必要とする問題に利益をもたらすオプションのような時間的に拡張された行動を発見することに焦点を当てている。
これらのオプションをエンドツーエンドで学ぶ有望なアプローチのひとつは、option-critic (oc)フレームワークである。
本稿では,ocが問題をより単純なサブプロブレムに分解するのではなく,学習中の状態空間全体を考慮し,それぞれの選択肢でポリシー空間を探索するサイズを増加させることを示す。
この問題は、サンプル非効率学習を含む、この手法の実践的な限界をもたらす可能性がある。
この問題に対処するために,時間的抽象化と文脈特異的表現の抽象化を両立させる新しいフレームワークであるCRADOL(Context-Specific Representation Abstraction for Deep Option Learning)を導入する。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
本手法は階層的,非階層的,モジュール的リカレントニューラルネットワークベースラインに対してテストを行い,部分的に観察可能な環境に挑戦した場合のサンプル効率の改善を示す。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - An Option-Dependent Analysis of Regret Minimization Algorithms in
Finite-Horizon Semi-Markov Decision Processes [47.037877670620524]
有限ホライゾン問題における後悔最小化アルゴリズムに苦しむ後悔に対するオプション依存上界について述べる。
本稿では,階層構造によって強制される時間的抽象化によって誘導される計画的地平線低減から,性能改善が導かれることを示す。
論文 参考訳(メタデータ) (2023-05-10T15:00:05Z) - Ideal Abstractions for Decision-Focused Learning [108.15241246054515]
本稿では,決定関連情報の損失を最小限に抑えるために,出力空間を自動的に構成する手法を提案する。
本手法は,ディープニューラルネットワークトレーニングのためのデータ取得と,閉ループ山火事管理タスクの2つの領域で実証する。
論文 参考訳(メタデータ) (2023-03-29T23:31:32Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Low-Dimensional State and Action Representation Learning with MDP
Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。
エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。
状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T16:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。