論文の概要: Learning Task Automata for Reinforcement Learning using Hidden Markov
Models
- arxiv url: http://arxiv.org/abs/2208.11838v1
- Date: Thu, 25 Aug 2022 02:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:06:16.306088
- Title: Learning Task Automata for Reinforcement Learning using Hidden Markov
Models
- Title(参考訳): 隠れマルコフモデルを用いた強化学習のためのタスク自動学習
- Authors: Alessandro Abate (1), Yousif Almulla (1), James Fox (1), David Hyland
(1), Michael Wooldridge (1) ((1) University of Oxford)
- Abstract要約: 本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,仕様のオートマトンと環境のMDPで構成されたモデルである製品MDPを,部分的に観測可能なMDPとして扱い,隠蔽マルコフモデルにオフザシェルフアルゴリズムを用いて学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training reinforcement learning (RL) agents using scalar reward signals is
often infeasible when an environment has sparse and non-Markovian rewards.
Moreover, handcrafting these reward functions before training is prone to
misspecification, especially when the environment's dynamics are only partially
known. This paper proposes a novel pipeline for learning non-Markovian task
specifications as succinct finite-state `task automata' from episodes of agent
experience within unknown environments. We leverage two key algorithmic
insights. First, we learn a product MDP, a model composed of the
specification's automaton and the environment's MDP (both initially unknown),
by treating it as a partially observable MDP and using off-the-shelf algorithms
for hidden Markov models. Second, we propose a novel method for distilling the
task automaton (assumed to be a deterministic finite automaton) from the learnt
product MDP. Our learnt task automaton enables the decomposition of a task into
its constituent sub-tasks, which improves the rate at which an RL agent can
later synthesise an optimal policy. It also provides an interpretable encoding
of high-level environmental and task features, so a human can readily verify
that the agent has learnt coherent tasks with no misspecifications. In
addition, we take steps towards ensuring that the learnt automaton is
environment-agnostic, making it well-suited for use in transfer learning.
Finally, we provide experimental results to illustrate our algorithm's
performance in different environments and tasks and its ability to incorporate
prior domain knowledge to facilitate more efficient learning.
- Abstract(参考訳): スカラー報酬信号を用いた訓練強化学習(RL)エージェントは、環境がまばらで非マルコフ報酬を持つ場合、しばしば実現不可能である。
さらに、トレーニング前にこれらの報酬関数を手作りすることは、特に環境のダイナミクスが部分的にしか知られていない場合、不特定に陥る傾向がある。
本稿では,未知環境におけるエージェント体験のエピソードから,非マルコフタスク仕様を簡潔な有限状態「タスクオートマトン」として学習するための新しいパイプラインを提案する。
2つの重要なアルゴリズムの洞察を活用します。
まず、その仕様のオートマトンと環境のMDP(どちらも当初不明)で構成されたモデルである製品MDPを、部分的に観察可能なMDPとして扱い、隠蔽マルコフモデルにオフザシェルフアルゴリズムを用いて学習する。
第2に、学習した製品MDPからタスクオートマトン(決定論的有限オートマトンと仮定される)を蒸留する方法を提案する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
また、高レベルの環境やタスクの特徴を解釈可能なエンコーディングを提供しており、エージェントが不特定性のないコヒーレントなタスクを学習したことを容易に確認することができる。
さらに,学習オートマトンが環境非依存であることを保証するための一歩を踏み出し,転校学習に適するようにした。
最後に、異なる環境やタスクにおけるアルゴリズムのパフォーマンスと、より効率的な学習を促進するために、事前のドメイン知識を組み込む能力を示す実験結果を提供する。
関連論文リスト
- Logical Specifications-guided Dynamic Task Sampling for Reinforcement
Learning Agents [10.097600885817984]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Multi-Environment Meta-Learning in Stochastic Linear Bandits [49.387421094105136]
単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。
我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
論文 参考訳(メタデータ) (2022-05-12T19:31:28Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。