Fugu-MT 論文翻訳(概要): Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning

論文の概要: Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2205.12532v2
Date: Sat, 16 Mar 2024 10:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 07:06:24.339688
Title: Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning
Title（参考訳）: スキルマシン:強化学習における時間論理スキル構成
Authors: Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman,
Abstract要約: 本稿では,エージェントがその環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。エージェントは論理的にも時間的にも柔軟に構成でき、任意の正規言語で時間論理の仕様を確実に達成することができる。これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。
参考スコア（独自算出の注目度）: 13.049516752695613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is desirable for an agent to be able to solve a rich variety of problems that can be specified through language in the same environment. A popular approach towards obtaining such agents is to reuse skills learned in prior tasks to generalise compositionally to new ones. However, this is a challenging problem due to the curse of dimensionality induced by the combinatorially large number of ways high-level goals can be combined both logically and temporally in language. To address this problem, we propose a framework where an agent first learns a sufficient set of skill primitives to achieve all high-level goals in its environment. The agent can then flexibly compose them both logically and temporally to provably achieve temporal logic specifications in any regular language, such as regular fragments of linear temporal logic. This provides the agent with the ability to map from complex temporal logic task specifications to near-optimal behaviours zero-shot. We demonstrate this experimentally in a tabular setting, as well as in a high-dimensional video game and continuous control environment. Finally, we also demonstrate that the performance of skill machines can be improved with regular off-policy reinforcement learning algorithms when optimal behaviours are desired.
Abstract（参考訳）: エージェントは、同じ環境で言語を通して特定できる多様な問題を解決することが望ましい。このようなエージェントを得るための一般的なアプローチは、以前のタスクで学んだスキルを再利用して、新しいタスクに合成することである。しかし、これは、言語における高次目標を論理的にも時間的にも組み合わせることのできる、組合せ的に多数の方法によって引き起こされる次元性の呪いによる挑戦的な問題である。この問題に対処するために,エージェントはまず,その環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。エージェントは論理的にも時間的にも柔軟にそれらを構成することができ、線形時間論理の正規フラグメントのような任意の正規言語で時間論理仕様を確実に達成することができる。これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。我々はこれを高次元のビデオゲームや連続制御環境と同様に表形式で実験的に実証する。最後に、最適動作が望まれる場合には、通常の非政治強化学習アルゴリズムを用いて、スキルマシンの性能を向上できることを実証する。

関連論文リスト

LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-05T09:40:47Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文参考訳（メタデータ） (2024-02-29T16:07:22Z)
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。 SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文参考訳（メタデータ） (2023-08-01T05:54:12Z)
Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文参考訳（メタデータ） (2023-06-16T17:23:49Z)
Thalamus: a brain-inspired algorithm for biologically-plausible continual learning and disentangled representations [0.0]
動物は絶えず変化する環境の中で成長し、時間構造を利用して因果表現を学ぶ。本稿では,時間的文脈の内部表現を生成するために,推論時に最適化を利用する単純なアルゴリズムを提案する。従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークが,タスクを動的に推論できることを示す。次に、ウェイト更新と潜伏更新を交互に切り替えて、未ラベルのタスクストリーム内の非絡み合った表現を発見することができるタスク非依存のアルゴリズムであるTalamusに到達します。
論文参考訳（メタデータ） (2022-05-24T01:29:21Z)
Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文参考訳（メタデータ） (2022-03-23T19:17:22Z)
Environment Generation for Zero-Shot Compositional Reinforcement Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。 CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文参考訳（メタデータ） (2022-01-21T21:35:01Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
Evolving Hierarchical Memory-Prediction Machines in Multi-Task Reinforcement Learning [4.030910640265943]
行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
論文参考訳（メタデータ） (2021-06-23T21:34:32Z)
Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。主アルゴリズムの正確性と収束性を保証する。
論文参考訳（メタデータ） (2021-02-01T01:13:03Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。