論文の概要: Modular Lifelong Reinforcement Learning via Neural Composition
- arxiv url: http://arxiv.org/abs/2207.00429v1
- Date: Fri, 1 Jul 2022 13:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 12:44:30.000906
- Title: Modular Lifelong Reinforcement Learning via Neural Composition
- Title(参考訳): 神経構成によるモジュール型生涯強化学習
- Authors: Jorge A. Mendez and Harm van Seijen and Eric Eaton
- Abstract要約: 人間は通常、それらをより簡単なサブプロブレムに分解し、サブプロブレムの解を組み合わせることで複雑な問題を解く。
このタイプの構成推論は、基礎となる構成構造の一部を共有する将来のタスクに取り組む際に、サブプロブレム解の再利用を可能にする。
連続的または生涯にわたる強化学習(RL)では、この知識を再利用可能なコンポーネントに分解する能力により、エージェントは新しいRLタスクを迅速に学習することができる。
- 参考スコア(独自算出の注目度): 31.561979764372886
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans commonly solve complex problems by decomposing them into easier
subproblems and then combining the subproblem solutions. This type of
compositional reasoning permits reuse of the subproblem solutions when tackling
future tasks that share part of the underlying compositional structure. In a
continual or lifelong reinforcement learning (RL) setting, this ability to
decompose knowledge into reusable components would enable agents to quickly
learn new RL tasks by leveraging accumulated compositional structures. We
explore a particular form of composition based on neural modules and present a
set of RL problems that intuitively admit compositional solutions. Empirically,
we demonstrate that neural composition indeed captures the underlying structure
of this space of problems. We further propose a compositional lifelong RL
method that leverages accumulated neural components to accelerate the learning
of future tasks while retaining performance on previous tasks via off-line RL
over replayed experiences.
- Abstract(参考訳): 人間は通常、より簡単なサブプロブレムに分解し、サブプロブレムの解を組み合わせることで複雑な問題を解決する。
このような構成推論は、基盤となる構成構造の一部を共有する将来のタスクに取り組む際に、サブプロブレムソリューションの再利用を可能にする。
連続的あるいは生涯にわたる強化学習(RL)において、この知識を再利用可能なコンポーネントに分解する能力により、エージェントは蓄積された構成構造を利用して新しいRLタスクを迅速に学習することができる。
我々は,神経モジュールに基づく特定の構成形態を探索し,合成解を直感的に認めるrl問題の組を提案する。
経験的に、神経構成がこの問題の根底構造を実際に捉えることを実証する。
さらに,蓄積したニューラル成分を生かした合成寿命RL法を提案し,再生体験よりもオフラインのRLを用いて,過去のタスクの性能を維持しつつ,将来のタスクの学習を加速する。
関連論文リスト
- Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning [1.8399318639816038]
我々は,レキシコグラフィーの優先度でサブタスクソリューションを学習し,適応するための優先度付きソフトQ分解(PSQD)を提案する。
PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。
我々は,低次元と高次元の両方のロボット制御タスクに対して,学習,再利用,適応性を成功させ,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-03T18:36:21Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Utilizing Prior Solutions for Reward Shaping and Composition in
Entropy-Regularized Reinforcement Learning [3.058685580689605]
エントロピー規則化RLにおける報酬形成とタスク構成のための一般的なフレームワークを開発する。
エントロピー規則化RLにおいて、導出関係が報酬形成の一般的な結果をもたらすことを示す。
次に、この手法を一般化し、エントロピー規則化RLにおける複数のタスクの構成に対して最適な値関数を接続する正確な関係を導出する。
論文 参考訳(メタデータ) (2022-12-02T13:57:53Z) - Lifelong Machine Learning of Functionally Compositional Structures [7.99536002595393]
この論文は、機能的な構成構造の生涯学習のための汎用的な枠組みを提示する。
このフレームワークは、学習を2つの段階に分ける: 既存のコンポーネントを組み合わせて新しい問題を同化する方法を学び、新しい問題に対応するために既存のコンポーネントを適応する方法を学ぶ。
教師付き学習評価の結果,1)構成モデルでは,多様なタスクの生涯学習が向上し,2)多段階のプロセスでは構成知識の生涯学習が可能となり,3)フレームワークが学習するコンポーネントは自己完結的かつ再利用可能な機能を表すことがわかった。
論文 参考訳(メタデータ) (2022-07-25T15:24:25Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Lifelong Learning of Compositional Structures [26.524289609910653]
構成構造の生涯学習のための汎用フレームワークを提案する。
我々のフレームワークは学習プロセスを2つの広い段階に分け、新しい問題を同化するために既存のコンポーネントを最もうまく組み合わせる方法を学び、新しい問題に対応するために既存のコンポーネントの集合を適応する方法を学ぶ。
論文 参考訳(メタデータ) (2020-07-15T14:58:48Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。