論文の概要: Learning Task Automata for Reinforcement Learning using Hidden Markov
Models
- arxiv url: http://arxiv.org/abs/2208.11838v1
- Date: Thu, 25 Aug 2022 02:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:06:16.306088
- Title: Learning Task Automata for Reinforcement Learning using Hidden Markov
Models
- Title(参考訳): 隠れマルコフモデルを用いた強化学習のためのタスク自動学習
- Authors: Alessandro Abate (1), Yousif Almulla (1), James Fox (1), David Hyland
(1), Michael Wooldridge (1) ((1) University of Oxford)
- Abstract要約: 本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,仕様のオートマトンと環境のMDPで構成されたモデルである製品MDPを,部分的に観測可能なMDPとして扱い,隠蔽マルコフモデルにオフザシェルフアルゴリズムを用いて学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training reinforcement learning (RL) agents using scalar reward signals is
often infeasible when an environment has sparse and non-Markovian rewards.
Moreover, handcrafting these reward functions before training is prone to
misspecification, especially when the environment's dynamics are only partially
known. This paper proposes a novel pipeline for learning non-Markovian task
specifications as succinct finite-state `task automata' from episodes of agent
experience within unknown environments. We leverage two key algorithmic
insights. First, we learn a product MDP, a model composed of the
specification's automaton and the environment's MDP (both initially unknown),
by treating it as a partially observable MDP and using off-the-shelf algorithms
for hidden Markov models. Second, we propose a novel method for distilling the
task automaton (assumed to be a deterministic finite automaton) from the learnt
product MDP. Our learnt task automaton enables the decomposition of a task into
its constituent sub-tasks, which improves the rate at which an RL agent can
later synthesise an optimal policy. It also provides an interpretable encoding
of high-level environmental and task features, so a human can readily verify
that the agent has learnt coherent tasks with no misspecifications. In
addition, we take steps towards ensuring that the learnt automaton is
environment-agnostic, making it well-suited for use in transfer learning.
Finally, we provide experimental results to illustrate our algorithm's
performance in different environments and tasks and its ability to incorporate
prior domain knowledge to facilitate more efficient learning.
- Abstract(参考訳): スカラー報酬信号を用いた訓練強化学習(RL)エージェントは、環境がまばらで非マルコフ報酬を持つ場合、しばしば実現不可能である。
さらに、トレーニング前にこれらの報酬関数を手作りすることは、特に環境のダイナミクスが部分的にしか知られていない場合、不特定に陥る傾向がある。
本稿では,未知環境におけるエージェント体験のエピソードから,非マルコフタスク仕様を簡潔な有限状態「タスクオートマトン」として学習するための新しいパイプラインを提案する。
2つの重要なアルゴリズムの洞察を活用します。
まず、その仕様のオートマトンと環境のMDP(どちらも当初不明)で構成されたモデルである製品MDPを、部分的に観察可能なMDPとして扱い、隠蔽マルコフモデルにオフザシェルフアルゴリズムを用いて学習する。
第2に、学習した製品MDPからタスクオートマトン(決定論的有限オートマトンと仮定される)を蒸留する方法を提案する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
また、高レベルの環境やタスクの特徴を解釈可能なエンコーディングを提供しており、エージェントが不特定性のないコヒーレントなタスクを学習したことを容易に確認することができる。
さらに,学習オートマトンが環境非依存であることを保証するための一歩を踏み出し,転校学習に適するようにした。
最後に、異なる環境やタスクにおけるアルゴリズムのパフォーマンスと、より効率的な学習を促進するために、事前のドメイン知識を組み込む能力を示す実験結果を提供する。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。