論文の概要: Induction and Exploitation of Subgoal Automata for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2009.03855v2
- Date: Tue, 16 Mar 2021 15:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 20:37:03.089878
- Title: Induction and Exploitation of Subgoal Automata for Reinforcement
Learning
- Title(参考訳): 強化学習のためのサブゴナルオートマタの誘導と爆発
- Authors: Daniel Furelos-Blanco, Mark Law, Anders Jonsson, Krysia Broda and
Alessandra Russo
- Abstract要約: 本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
- 参考スコア(独自算出の注目度): 75.55324974788475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present ISA, an approach for learning and exploiting
subgoals in episodic reinforcement learning (RL) tasks. ISA interleaves
reinforcement learning with the induction of a subgoal automaton, an automaton
whose edges are labeled by the task's subgoals expressed as propositional logic
formulas over a set of high-level events. A subgoal automaton also consists of
two special states: a state indicating the successful completion of the task,
and a state indicating that the task has finished without succeeding. A
state-of-the-art inductive logic programming system is used to learn a subgoal
automaton that covers the traces of high-level events observed by the RL agent.
When the currently exploited automaton does not correctly recognize a trace,
the automaton learner induces a new automaton that covers that trace. The
interleaving process guarantees the induction of automata with the minimum
number of states, and applies a symmetry breaking mechanism to shrink the
search space whilst remaining complete. We evaluate ISA in several gridworld
and continuous state space problems using different RL algorithms that leverage
the automaton structures. We provide an in-depth empirical analysis of the
automaton learning performance in terms of the traces, the symmetry breaking
and specific restrictions imposed on the final learnable automaton. For each
class of RL problem, we show that the learned automata can be successfully
exploited to learn policies that reach the goal, achieving an average reward
comparable to the case where automata are not learned but handcrafted and given
beforehand.
- Abstract(参考訳): 本稿では,表在的強化学習(RL)課題におけるサブゴールの学習と活用のためのISAを提案する。
isaは強化学習を、一連のハイレベルなイベントに対して命題論理式として表されるタスクのサブゴアルによって端がラベル付けされるサブゴアルオートマトン(subgoal automaton)の誘導とインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
最先端の帰納的論理プログラミングシステムを用いて、RLエージェントが観測した高レベル事象のトレースをカバーするサブゴールオートマトンを学習する。
現在使われているオートマトンがトレースを正しく認識していない場合、オートマトン学習者はそのトレースをカバーする新しいオートマトンを誘導する。
インターリーブプロセスは、最小状態数でオートマタの誘導を保証し、完備のまま探索空間を縮小するために対称性の破断機構を適用する。
我々は,複数のグリッドワールドおよび連続状態空間問題において,自動構造を利用するRLアルゴリズムを用いてISAを評価する。
我々は,最終学習可能なオートマトンに課されるトレース,対称性の破れ,特定の制限の観点から,オートマトン学習性能の詳細な実証分析を行う。
RL問題の各クラスに対して、学習したオートマトンをうまく利用して目標に達するポリシーを学習できることを示し、オートマトンが学習されず手作りされ、事前に与えられた場合と同等の平均的な報酬を達成する。
関連論文リスト
- Learning Quantitative Automata Modulo Theories [17.33092604696224]
本稿では,学習者が帰納的推論によって有効なオートマトンを推論する,能動的学習アルゴリズムQUINTICを提案する。
本評価では, 累積, 減算, 積, 量的オートマトンを学習するために, 有理理論を利用する。
論文 参考訳(メタデータ) (2024-11-15T21:51:14Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。
提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。
また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文 参考訳(メタデータ) (2023-05-25T22:13:37Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-02T17:58:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。