論文の概要: Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12532v2
- Date: Sat, 16 Mar 2024 10:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 07:06:24.339688
- Title: Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning
- Title(参考訳): スキルマシン:強化学習における時間論理スキル構成
- Authors: Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman,
- Abstract要約: 本稿では,エージェントがその環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。
エージェントは論理的にも時間的にも柔軟に構成でき、任意の正規言語で時間論理の仕様を確実に達成することができる。
これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。
- 参考スコア(独自算出の注目度): 13.049516752695613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is desirable for an agent to be able to solve a rich variety of problems that can be specified through language in the same environment. A popular approach towards obtaining such agents is to reuse skills learned in prior tasks to generalise compositionally to new ones. However, this is a challenging problem due to the curse of dimensionality induced by the combinatorially large number of ways high-level goals can be combined both logically and temporally in language. To address this problem, we propose a framework where an agent first learns a sufficient set of skill primitives to achieve all high-level goals in its environment. The agent can then flexibly compose them both logically and temporally to provably achieve temporal logic specifications in any regular language, such as regular fragments of linear temporal logic. This provides the agent with the ability to map from complex temporal logic task specifications to near-optimal behaviours zero-shot. We demonstrate this experimentally in a tabular setting, as well as in a high-dimensional video game and continuous control environment. Finally, we also demonstrate that the performance of skill machines can be improved with regular off-policy reinforcement learning algorithms when optimal behaviours are desired.
- Abstract(参考訳): エージェントは、同じ環境で言語を通して特定できる多様な問題を解決することが望ましい。
このようなエージェントを得るための一般的なアプローチは、以前のタスクで学んだスキルを再利用して、新しいタスクに合成することである。
しかし、これは、言語における高次目標を論理的にも時間的にも組み合わせることのできる、組合せ的に多数の方法によって引き起こされる次元性の呪いによる挑戦的な問題である。
この問題に対処するために,エージェントはまず,その環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。
エージェントは論理的にも時間的にも柔軟にそれらを構成することができ、線形時間論理の正規フラグメントのような任意の正規言語で時間論理仕様を確実に達成することができる。
これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。
我々はこれを高次元のビデオゲームや連続制御環境と同様に表形式で実験的に実証する。
最後に、最適動作が望まれる場合には、通常の非政治強化学習アルゴリズムを用いて、スキルマシンの性能を向上できることを実証する。
関連論文リスト
- RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。
提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文 参考訳(メタデータ) (2023-06-16T17:23:49Z) - Thalamus: a brain-inspired algorithm for biologically-plausible
continual learning and disentangled representations [0.0]
動物は絶えず変化する環境の中で成長し、時間構造を利用して因果表現を学ぶ。
本稿では,時間的文脈の内部表現を生成するために,推論時に最適化を利用する単純なアルゴリズムを提案する。
従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークが,タスクを動的に推論できることを示す。
次に、ウェイト更新と潜伏更新を交互に切り替えて、未ラベルのタスクストリーム内の非絡み合った表現を発見することができるタスク非依存のアルゴリズムであるTalamusに到達します。
論文 参考訳(メタデータ) (2022-05-24T01:29:21Z) - Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文 参考訳(メタデータ) (2022-03-23T19:17:22Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning [4.030910640265943]
行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。
遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-23T21:34:32Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。