論文の概要: Options of Interest: Temporal Abstraction with Interest Functions
- arxiv url: http://arxiv.org/abs/2001.00271v1
- Date: Wed, 1 Jan 2020 21:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 09:11:37.068173
- Title: Options of Interest: Temporal Abstraction with Interest Functions
- Title(参考訳): 興味のオプション:興味のある機能を持つ時間的抽象化
- Authors: Khimya Khetarpal, Martin Klissarov, Maxime Chevalier-Boisvert,
Pierre-Luc Bacon, Doina Precup
- Abstract要約: 一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。
我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
- 参考スコア(独自算出の注目度): 58.30081828754683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal abstraction refers to the ability of an agent to use behaviours of
controllers which act for a limited, variable amount of time. The options
framework describes such behaviours as consisting of a subset of states in
which they can initiate, an internal policy and a stochastic termination
condition. However, much of the subsequent work on option discovery has ignored
the initiation set, because of difficulty in learning it from data. We provide
a generalization of initiation sets suitable for general function
approximation, by defining an interest function associated with an option. We
derive a gradient-based learning algorithm for interest functions, leading to a
new interest-option-critic architecture. We investigate how interest functions
can be leveraged to learn interpretable and reusable temporal abstractions. We
demonstrate the efficacy of the proposed approach through quantitative and
qualitative results, in both discrete and continuous environments.
- Abstract(参考訳): 時間的抽象化(Temporal abstract)とは、エージェントが限られた時間に作用するコントローラの動作を使用する能力を指す。
オプションフレームワークは、そのような振る舞いを、開始できる状態のサブセット、内部ポリシー、確率的終了条件からなるものとして記述する。
しかし、その後のオプション発見の研究の多くは、データからそれを学ぶのが困難であるため、開始セットを無視している。
オプションに関連する関心関数を定義することにより、一般関数近似に適した開始集合の一般化を提供する。
我々は,興味関数に対する勾配に基づく学習アルゴリズムを導出し,新たな関心-オプティオン-クリティックアーキテクチャを導出する。
我々は,理解可能かつ再利用可能な時間的抽象化を学ぶために,関心関数をどのように活用するかを検討する。
本研究では, 離散環境と連続環境の両方において, 定量的および定性的な結果を通じて提案手法の有効性を示す。
関連論文リスト
- Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - Sequential Decision Making on Unmatched Data using Bayesian Kernel
Embeddings [10.75801980090826]
本稿では,関数の期待値を最大化する新しいアルゴリズムを提案する。
特徴の条件分布と未知関数の両方から導かれる不確実性について考察する。
本アルゴリズムは,実験において,現在最先端のアルゴリズムよりも経験的に優れている。
論文 参考訳(メタデータ) (2022-10-25T01:27:29Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。