論文の概要: Temporal Abstraction in Reinforcement Learning with the Successor
Representation
- arxiv url: http://arxiv.org/abs/2110.05740v3
- Date: Tue, 11 Apr 2023 21:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 19:31:16.531374
- Title: Temporal Abstraction in Reinforcement Learning with the Successor
Representation
- Title(参考訳): 後継表現を用いた強化学習における時間的抽象化
- Authors: Marlos C. Machado and Andre Barreto and Doina Precup and Michael
Bowling
- Abstract要約: 我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 65.69658154078007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning at multiple levels of temporal abstraction is one of the key
attributes of intelligence. In reinforcement learning, this is often modeled
through temporally extended courses of actions called options. Options allow
agents to make predictions and to operate at different levels of abstraction
within an environment. Nevertheless, approaches based on the options framework
often start with the assumption that a reasonable set of options is known
beforehand. When this is not the case, there are no definitive answers for
which options one should consider. In this paper, we argue that the successor
representation (SR), which encodes states based on the pattern of state
visitation that follows them, can be seen as a natural substrate for the
discovery and use of temporal abstractions. To support our claim, we take a big
picture view of recent results, showing how the SR can be used to discover
options that facilitate either temporally-extended exploration or planning. We
cast these results as instantiations of a general framework for option
discovery in which the agent's representation is used to identify useful
options, which are then used to further improve its representation. This
results in a virtuous, never-ending, cycle in which both the representation and
the options are constantly refined based on each other. Beyond option discovery
itself, we also discuss how the SR allows us to augment a set of options into a
combinatorially large counterpart without additional learning. This is achieved
through the combination of previously learned options. Our empirical evaluation
focuses on options discovered for exploration and on the use of the SR to
combine them. The results of our experiments shed light on important design
decisions involved in the definition of options and demonstrate the synergy of
different methods based on the SR, such as eigenoptions and the option
keyboard.
- Abstract(参考訳): 時間的抽象化の複数のレベルでの推論は、インテリジェンスの重要な特性の1つである。
強化学習では、オプションと呼ばれる時間的に拡張されたアクションのコースを通じてモデル化されることが多い。
オプションによってエージェントは予測を行い、環境内のさまざまなレベルの抽象化で操作できる。
それでも、option frameworkに基づくアプローチは、合理的なオプションセットが事前に知られているという仮定から始めることが多い。
もしそうでなければ、どの選択肢を検討するべきか決定的な答えはありません。
本稿では,国家訪問のパターンに基づいて状態を符号化した後継表現 (SR) を,時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々の主張を支持するために、我々は最近の成果を概観し、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示した。
我々はこれらの結果を,エージェントの表現を用いて有用なオプションを識別し,その表現をさらに改善する,オプション発見のための一般的なフレームワークのインスタンス化として用いた。
この結果、表現とオプションの両方が互いに基づいて常に洗練される、厳密で絶え間ないサイクルがもたらされる。
オプション発見そのもの以外にも、SRによって、追加の学習なしに、組合せ的に大きな選択肢にオプションセットを拡張できる方法についても議論しています。
これは、以前に学習したオプションを組み合わせることで実現される。
私たちの経験的評価は、探査で発見されたオプションと、それらを組み合わせるためのsrの使用に焦点を当てています。
実験の結果,オプションの定義に関わる重要な設計上の決定に光を当て,固有オプションやオプションキーボードなど,SRに基づく異なる手法の相乗効果を実証した。
関連論文リスト
- Reward-Respecting Subtasks for Model-Based Reinforcement Learning [13.906158484935098]
強化学習には、状態と時間の抽象的な世界のモデルによる計画を含めなければならない。
この理由の1つは、可能なオプションの空間が膨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬参照オプションよりも、計画立案に有用であることを示す。
論文 参考訳(メタデータ) (2022-02-07T19:09:27Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Context-Specific Representation Abstraction for Deep Option Learning [43.68681795014662]
我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。
CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
論文 参考訳(メタデータ) (2021-09-20T22:50:01Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Options of Interest: Temporal Abstraction with Interest Functions [58.30081828754683]
一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。
我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
論文 参考訳(メタデータ) (2020-01-01T21:24:39Z) - On the Role of Weight Sharing During Deep Option Learning [21.216780543401235]
オプションフレームワークは、強化学習において時間的に拡張されたアクションを構築するための一般的なアプローチである。
過去の研究は、オプションクリティカルの各コンポーネントが独立したパラメータを持つというキーとなる仮定を下している。
我々は、各更新で完全なアーキテクチャを最適化するオプション批判的および階層的オプション批判的トレーニングのより一般的な拡張について検討する。
論文 参考訳(メタデータ) (2019-12-31T16:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。