論文の概要: Learning Symbolic Representations for Reinforcement Learning of
Non-Markovian Behavior
- arxiv url: http://arxiv.org/abs/2301.02952v1
- Date: Sun, 8 Jan 2023 00:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:56:05.019455
- Title: Learning Symbolic Representations for Reinforcement Learning of
Non-Markovian Behavior
- Title(参考訳): 非マルコフ行動の強化学習のための学習記号表現
- Authors: Phillip J.K. Christoffersen, Andrew C. Li, Rodrigo Toro Icarte, Sheila
A. McIlraith
- Abstract要約: 我々は、状態-作用履歴の学習自動化を支援する有用な状態抽象化を自動的に発見する方法を示す。
その結果、最先端のRLよりもはるかに少ない環境サンプルで最適なポリシーを学習できるエンドツーエンドのアルゴリズムが得られた。
- 参考スコア(独自算出の注目度): 23.20013012953065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world reinforcement learning (RL) problems necessitate learning
complex, temporally extended behavior that may only receive reward signal when
the behavior is completed. If the reward-worthy behavior is known, it can be
specified in terms of a non-Markovian reward function - a function that depends
on aspects of the state-action history, rather than just the current state and
action. Such reward functions yield sparse rewards, necessitating an inordinate
number of experiences to find a policy that captures the reward-worthy pattern
of behavior. Recent work has leveraged Knowledge Representation (KR) to provide
a symbolic abstraction of aspects of the state that summarize reward-relevant
properties of the state-action history and support learning a Markovian
decomposition of the problem in terms of an automaton over the KR. Providing
such a decomposition has been shown to vastly improve learning rates,
especially when coupled with algorithms that exploit automaton structure.
Nevertheless, such techniques rely on a priori knowledge of the KR. In this
work, we explore how to automatically discover useful state abstractions that
support learning automata over the state-action history. The result is an
end-to-end algorithm that can learn optimal policies with significantly fewer
environment samples than state-of-the-art RL on simple non-Markovian domains.
- Abstract(参考訳): 多くの実世界の強化学習(RL)問題は、学習が複雑で、時間的に拡張された振る舞いを必要とする。
報酬に値する振る舞いが分かっている場合、それは非マルコフ報酬関数(現在の状態や行動だけでなく、状態-行動履歴の側面に依存する関数)の観点から指定することができる。
このような報酬関数はスパース報酬をもたらし、報酬に値する行動パターンを捉えるポリシーを見つけるために、不規則な数の経験を必要とする。
最近の研究は知識表現(KR)を活用し、状態-行動履歴の報酬関連特性を要約した状態の側面の象徴的な抽象化を提供し、KR上のオートマトンの観点からマルコフ分解の学習を支援する。
このような分解を提供することで、特にオートマトン構造を利用するアルゴリズムと組み合わせることで、学習率を大幅に向上することが示されている。
しかしながら、そのような手法はKRの事前知識に依存している。
本研究では、状態-作用履歴の学習を支援する有用な状態抽象化を自動的に発見する方法を検討する。
その結果、単純な非マルコフ領域における最先端RLよりもはるかに少ない環境サンプルで最適なポリシーを学習できるエンドツーエンドアルゴリズムが得られた。
関連論文リスト
- Automated Feature Selection for Inverse Reinforcement Learning [7.278033100480175]
逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T10:05:21Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Noisy Symbolic Abstractions for Deep RL: A case study with Reward
Machines [23.15484341058261]
報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。
雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
論文 参考訳(メタデータ) (2022-11-20T08:13:48Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。