Fugu-MT 論文翻訳(概要): Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward Machines

論文の概要: Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward Machines

arxiv url: http://arxiv.org/abs/2111.09475v1
Date: Thu, 18 Nov 2021 02:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 13:49:25.333127
Title: Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward Machines
Title（参考訳）: 時間論理式とリワードマシンを用いた生涯強化学習
Authors: Xuejing Zheng, Chao Yu, Chen Chen, Jianye Hao, Hankz Hankui Zhuo
Abstract要約: 逐次線形時間論理式とReward Machines(LSRM)を用いた長寿命強化学習を提案する。まず、線形時間論理(SLTL)を導入し、既存の線形時間論理言語を補足する。次に、Reward Machines (RM) を用いて、高レベルイベントを符号化したタスクの構造的報酬関数を利用する。
参考スコア（独自算出の注目度）: 30.161550541362487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continuously learning new tasks using high-level ideas or knowledge is a key capability of humans. In this paper, we propose Lifelong reinforcement learning with Sequential linear temporal logic formulas and Reward Machines (LSRM), which enables an agent to leverage previously learned knowledge to fasten learning of logically specified tasks. For the sake of more flexible specification of tasks, we first introduce Sequential Linear Temporal Logic (SLTL), which is a supplement to the existing Linear Temporal Logic (LTL) formal language. We then utilize Reward Machines (RM) to exploit structural reward functions for tasks encoded with high-level events, and propose automatic extension of RM and efficient knowledge transfer over tasks for continuous learning in lifetime. Experimental results show that LSRM outperforms the methods that learn the target tasks from scratch by taking advantage of the task decomposition using SLTL and knowledge transfer over RM during the lifelong learning process.
Abstract（参考訳）: 高レベルのアイデアや知識を使って新しいタスクを継続的に学習することは、人間の重要な能力である。本稿では,事前学習された知識を活用し,論理的に指定されたタスクの学習を高速化できる逐次線形時相論理式と報酬機械(lsrm)を用いた生涯強化学習を提案する。タスクのより柔軟な仕様化のために、まず、既存のLTL(Linear Temporal Logic)形式言語を補完するSequential Linear Temporal Logic (SLTL)を導入する。次に,高レベルイベントにエンコードされたタスクの構造的報酬関数を利用するための報酬機械(rm)を利用し,rmの自動拡張と生涯学習のためのタスクの効率的な知識伝達を提案する。実験の結果,lsrmは,stlを用いたタスク分解とrm上での知識伝達を生かして,目標タスクをスクラッチから学習する手法よりも優れていることがわかった。

関連論文リスト

Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。 RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文参考訳（メタデータ） (2025-05-17T13:13:13Z)
LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.518410910148816]
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。 LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-05-17T10:09:11Z)
Reward Machine Inference for Robotic Manipulation [1.6135226672466307]
Reward Machines (RM) は、RLが拡張された時間的地平線上でポリシーをトレーニングする能力を向上する。本稿では,ロボット操作タスクの視覚的実演から直接RMを学習するための新しいLfD手法を提案する。提案手法を視覚に基づく操作タスクに適用し,推論されたRMがタスク構造を正確に把握し,RLエージェントが最適なポリシーを効果的に学習できることを示す。
論文参考訳（メタデータ） (2024-12-13T12:32:53Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文参考訳（メタデータ） (2024-06-19T23:30:01Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T04:55:09Z)
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文参考訳（メタデータ） (2024-02-06T04:00:21Z)
Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion [24.545917737620197]
時間知識グラフ補完(TKGC)は、将来のタイムスタンプにおけるイベントリンクの欠落を予測する複雑なタスクである。本稿では,時間的知識グラフの推論において,大規模言語モデルの利点を活用するための総合的な視点を提供することを目的とする。
論文参考訳（メタデータ） (2024-01-11T17:42:47Z)
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文参考訳（メタデータ） (2023-06-05T23:32:26Z)
Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文参考訳（メタデータ） (2022-12-21T15:49:20Z)
Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。 SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文参考訳（メタデータ） (2021-01-28T17:35:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。