論文の概要: Skill Machines: Temporal Logic Composition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12532v1
- Date: Wed, 25 May 2022 07:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 10:33:30.306346
- Title: Skill Machines: Temporal Logic Composition in Reinforcement Learning
- Title(参考訳): スキルマシン:強化学習における時相論理構成
- Authors: Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman
- Abstract要約: 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。
このような課題に対するソリューションをエンコードする報奨機から直接学習可能な,スキルマシンを紹介します。
- 参考スコア(独自算出の注目度): 13.10774216558024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in reinforcement learning is specifying tasks in a manner
that is both interpretable and verifiable. One common approach is to specify
tasks through reward machines -- finite state machines that encode the task to
be solved. We introduce skill machines, a representation that can be learned
directly from these reward machines that encode the solution to such tasks. We
propose a framework where an agent first learns a set of base skills in a
reward-free setting, and then combines these skills with the learned skill
machine to produce composite behaviours specified by any regular language, such
as linear temporal logics. This provides the agent with the ability to map from
complex logical task specifications to near-optimal behaviours zero-shot. We
demonstrate our approach in both a tabular and high-dimensional video game
environment, where an agent is faced with several of these complex,
long-horizon tasks. Our results indicate that the agent is capable of
satisfying extremely complex task specifications, producing near optimal
performance with no further learning. Finally, we demonstrate that the
performance of skill machines can be improved with regular offline
reinforcement learning algorithms when optimal behaviours are desired.
- Abstract(参考訳): 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。
1つの一般的なアプローチは、報酬マシン -- 解決すべきタスクをエンコードする有限状態マシン -- を通じてタスクを指定することである。
このようなタスクの解決策をエンコードした報酬マシンから直接学習可能な,スキルマシンを紹介します。
エージェントがまず報酬のない環境で基本スキルのセットを学習し、次にこれらのスキルを学習スキルマシンと組み合わせて、線形時間論理などの正規言語で指定された複合動作を生成するフレームワークを提案する。
これによりエージェントは、複雑な論理的タスク仕様からほぼ最適の振る舞いをゼロショットにマッピングできる。
エージェントがこれらの複雑な長方形タスクのいくつかに直面した,表型および高次元のゲーム環境において,我々のアプローチを実証する。
以上の結果から,エージェントは極めて複雑なタスク仕様を満足でき,さらに学習することなくほぼ最適な性能を得られることが示された。
最後に,適切な動作が要求される場合,オフライン強化学習アルゴリズムにより,スキルマシンの性能が向上することを示す。
関連論文リスト
- RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。
提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文 参考訳(メタデータ) (2023-06-16T17:23:49Z) - Thalamus: a brain-inspired algorithm for biologically-plausible
continual learning and disentangled representations [0.0]
動物は絶えず変化する環境の中で成長し、時間構造を利用して因果表現を学ぶ。
本稿では,時間的文脈の内部表現を生成するために,推論時に最適化を利用する単純なアルゴリズムを提案する。
従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークが,タスクを動的に推論できることを示す。
次に、ウェイト更新と潜伏更新を交互に切り替えて、未ラベルのタスクストリーム内の非絡み合った表現を発見することができるタスク非依存のアルゴリズムであるTalamusに到達します。
論文 参考訳(メタデータ) (2022-05-24T01:29:21Z) - Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文 参考訳(メタデータ) (2022-03-23T19:17:22Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning [4.030910640265943]
行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。
遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-23T21:34:32Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。