Fugu-MT 論文翻訳(概要): Skill Machines: Temporal Logic Composition in Reinforcement Learning

論文の概要: Skill Machines: Temporal Logic Composition in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2205.12532v1
Date: Wed, 25 May 2022 07:05:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-27 10:33:30.306346
Title: Skill Machines: Temporal Logic Composition in Reinforcement Learning
Title（参考訳）: スキルマシン:強化学習における時相論理構成
Authors: Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman
Abstract要約: 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。このような課題に対するソリューションをエンコードする報奨機から直接学習可能な,スキルマシンを紹介します。
参考スコア（独自算出の注目度）: 13.10774216558024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A major challenge in reinforcement learning is specifying tasks in a manner that is both interpretable and verifiable. One common approach is to specify tasks through reward machines -- finite state machines that encode the task to be solved. We introduce skill machines, a representation that can be learned directly from these reward machines that encode the solution to such tasks. We propose a framework where an agent first learns a set of base skills in a reward-free setting, and then combines these skills with the learned skill machine to produce composite behaviours specified by any regular language, such as linear temporal logics. This provides the agent with the ability to map from complex logical task specifications to near-optimal behaviours zero-shot. We demonstrate our approach in both a tabular and high-dimensional video game environment, where an agent is faced with several of these complex, long-horizon tasks. Our results indicate that the agent is capable of satisfying extremely complex task specifications, producing near optimal performance with no further learning. Finally, we demonstrate that the performance of skill machines can be improved with regular offline reinforcement learning algorithms when optimal behaviours are desired.
Abstract（参考訳）: 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。 1つの一般的なアプローチは、報酬マシン -- 解決すべきタスクをエンコードする有限状態マシン -- を通じてタスクを指定することである。このようなタスクの解決策をエンコードした報酬マシンから直接学習可能な,スキルマシンを紹介します。エージェントがまず報酬のない環境で基本スキルのセットを学習し、次にこれらのスキルを学習スキルマシンと組み合わせて、線形時間論理などの正規言語で指定された複合動作を生成するフレームワークを提案する。これによりエージェントは、複雑な論理的タスク仕様からほぼ最適の振る舞いをゼロショットにマッピングできる。エージェントがこれらの複雑な長方形タスクのいくつかに直面した,表型および高次元のゲーム環境において,我々のアプローチを実証する。以上の結果から,エージェントは極めて複雑なタスク仕様を満足でき,さらに学習することなくほぼ最適な性能を得られることが示された。最後に,適切な動作が要求される場合,オフライン強化学習アルゴリズムにより,スキルマシンの性能が向上することを示す。

関連論文リスト

LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-05T09:40:47Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文参考訳（メタデータ） (2024-02-29T16:07:22Z)
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。 SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文参考訳（メタデータ） (2023-08-01T05:54:12Z)
Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文参考訳（メタデータ） (2023-06-16T17:23:49Z)
Thalamus: a brain-inspired algorithm for biologically-plausible continual learning and disentangled representations [0.0]
動物は絶えず変化する環境の中で成長し、時間構造を利用して因果表現を学ぶ。本稿では,時間的文脈の内部表現を生成するために,推論時に最適化を利用する単純なアルゴリズムを提案する。従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークが,タスクを動的に推論できることを示す。次に、ウェイト更新と潜伏更新を交互に切り替えて、未ラベルのタスクストリーム内の非絡み合った表現を発見することができるタスク非依存のアルゴリズムであるTalamusに到達します。
論文参考訳（メタデータ） (2022-05-24T01:29:21Z)
Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文参考訳（メタデータ） (2022-03-23T19:17:22Z)
Environment Generation for Zero-Shot Compositional Reinforcement Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。 CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文参考訳（メタデータ） (2022-01-21T21:35:01Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
Evolving Hierarchical Memory-Prediction Machines in Multi-Task Reinforcement Learning [4.030910640265943]
行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
論文参考訳（メタデータ） (2021-06-23T21:34:32Z)
Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。主アルゴリズムの正確性と収束性を保証する。
論文参考訳（メタデータ） (2021-02-01T01:13:03Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。