論文の概要: Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward
Machines
- arxiv url: http://arxiv.org/abs/2111.09475v1
- Date: Thu, 18 Nov 2021 02:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:49:25.333127
- Title: Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward
Machines
- Title(参考訳): 時間論理式とリワードマシンを用いた生涯強化学習
- Authors: Xuejing Zheng, Chao Yu, Chen Chen, Jianye Hao, Hankz Hankui Zhuo
- Abstract要約: 逐次線形時間論理式とReward Machines(LSRM)を用いた長寿命強化学習を提案する。
まず、線形時間論理(SLTL)を導入し、既存の線形時間論理言語を補足する。
次に、Reward Machines (RM) を用いて、高レベルイベントを符号化したタスクの構造的報酬関数を利用する。
- 参考スコア(独自算出の注目度): 30.161550541362487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuously learning new tasks using high-level ideas or knowledge is a key
capability of humans. In this paper, we propose Lifelong reinforcement learning
with Sequential linear temporal logic formulas and Reward Machines (LSRM),
which enables an agent to leverage previously learned knowledge to fasten
learning of logically specified tasks. For the sake of more flexible
specification of tasks, we first introduce Sequential Linear Temporal Logic
(SLTL), which is a supplement to the existing Linear Temporal Logic (LTL)
formal language. We then utilize Reward Machines (RM) to exploit structural
reward functions for tasks encoded with high-level events, and propose
automatic extension of RM and efficient knowledge transfer over tasks for
continuous learning in lifetime. Experimental results show that LSRM
outperforms the methods that learn the target tasks from scratch by taking
advantage of the task decomposition using SLTL and knowledge transfer over RM
during the lifelong learning process.
- Abstract(参考訳): 高レベルのアイデアや知識を使って新しいタスクを継続的に学習することは、人間の重要な能力である。
本稿では,事前学習された知識を活用し,論理的に指定されたタスクの学習を高速化できる逐次線形時相論理式と報酬機械(lsrm)を用いた生涯強化学習を提案する。
タスクのより柔軟な仕様化のために、まず、既存のLTL(Linear Temporal Logic)形式言語を補完するSequential Linear Temporal Logic (SLTL)を導入する。
次に,高レベルイベントにエンコードされたタスクの構造的報酬関数を利用するための報酬機械(rm)を利用し,rmの自動拡張と生涯学習のためのタスクの効率的な知識伝達を提案する。
実験の結果,lsrmは,stlを用いたタスク分解とrm上での知識伝達を生かして,目標タスクをスクラッチから学習する手法よりも優れていることがわかった。
関連論文リスト
- Logical Specifications-guided Dynamic Task Sampling for Reinforcement
Learning Agents [10.097600885817984]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Chain of History: Learning and Forecasting with LLMs for Temporal
Knowledge Graph Completion [24.545917737620197]
時間知識グラフ補完(TKGC)は、将来のタイムスタンプにおけるイベントリンクの欠落を予測する複雑なタスクである。
本稿では,時間的知識グラフの推論において,大規模言語モデルの利点を活用するための総合的な視点を提供することを目的とする。
論文 参考訳(メタデータ) (2024-01-11T17:42:47Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment
Regularization [57.71118589124002]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。
SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。
タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文 参考訳(メタデータ) (2021-01-28T17:35:04Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。