論文の概要: A Boolean Task Algebra for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.01394v2
- Date: Thu, 15 Oct 2020 17:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 02:00:48.168725
- Title: A Boolean Task Algebra for Reinforcement Learning
- Title(参考訳): 強化学習のためのブールタスク代数
- Authors: Geraud Nangue Tasse, Steven James, Benjamin Rosman
- Abstract要約: タスクの論理的構成をブール代数として定式化する。
目標志向の値関数を学習することで,エージェントが新たなタスクを学習せずに解決できることが示される。
- 参考スコア(独自算出の注目度): 14.731788603429774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to compose learned skills to solve new tasks is an important
property of lifelong-learning agents. In this work, we formalise the logical
composition of tasks as a Boolean algebra. This allows us to formulate new
tasks in terms of the negation, disjunction and conjunction of a set of base
tasks. We then show that by learning goal-oriented value functions and
restricting the transition dynamics of the tasks, an agent can solve these new
tasks with no further learning. We prove that by composing these value
functions in specific ways, we immediately recover the optimal policies for all
tasks expressible under the Boolean algebra. We verify our approach in two
domains---including a high-dimensional video game environment requiring
function approximation---where an agent first learns a set of base skills, and
then composes them to solve a super-exponential number of new tasks.
- Abstract(参考訳): 新しい課題を解くための学習スキルを構成する能力は、生涯学習エージェントの重要な特性である。
本研究では,タスクの論理構成をブール代数として定式化する。
これにより、一連の基本タスクの否定、解離、結合という観点から、新しいタスクを定式化できます。
次に,目標指向の価値関数を学習し,タスクの遷移ダイナミクスを制限することにより,エージェントが新たなタスクをそれ以上学習することなく解決できることを示す。
これらの値関数を特定の方法で構成することにより、ブール代数の下で表現可能なすべてのタスクに対する最適ポリシーを直ちに回復することを示す。
エージェントがまずベーススキルのセットを学習し、次にそれらを合成して、超指数的な数の新しいタスクを解くという、高次元のビデオゲーム環境を含む2つの領域におけるアプローチを検証する。
関連論文リスト
- Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - ConTinTin: Continual Learning from Task Instructions [101.36836925135091]
本研究は,新たな学習パラダイムであるConTinTinを定義した。
私たちの知る限り、NLPでConTinTinを研究するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-03-16T10:27:18Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Learning to Follow Language Instructions with Compositional Policies [22.778677208048475]
本稿では,目標達成タスクからなる環境下で自然言語命令を実行することを学習するフレームワークを提案する。
我々は強化学習エージェントを訓練し、その後ブール代数を通して構成できる値関数を学習する。
我々は、Webスケールコーパスで事前訓練されたSeq2seqモデルを微調整し、言語を論理式にマッピングする。
論文 参考訳(メタデータ) (2021-10-09T21:28:26Z) - Efficient and robust multi-task learning in the brain with modular task
primitives [2.6166087473624318]
タスクプリミティブを具備したモジュールネットワークは,パラメータ数と更新率を低く保ちながら,複数のタスクを適切に学習することができることを示す。
また,本手法により得られたスキルは,他のマルチタスク学習戦略に比べて幅広い摂動に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2021-05-28T21:07:54Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Transforming task representations to perform novel tasks [12.008469282323492]
知性の重要な側面は、直接の経験(ゼロショット)なしで新しいタスクに適応できる能力である。
本稿では,従来のタスクとの関係に基づいて,新しいタスクに適応するための一般的な計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T23:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。