論文の概要: Learning Compositional Neural Programs for Continuous Control
- arxiv url: http://arxiv.org/abs/2007.13363v2
- Date: Tue, 13 Apr 2021 12:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:38:01.956129
- Title: Learning Compositional Neural Programs for Continuous Control
- Title(参考訳): 連続制御のための学習合成ニューラルネットワークプログラム
- Authors: Thomas Pierrot, Nicolas Perrin, Feryal Behbahani, Alexandre Laterre,
Olivier Sigaud, Karim Beguir, Nando de Freitas
- Abstract要約: スパース逆連続制御問題に対する新しい解法を提案する。
我々のソリューションはAlphaNPI-Xと呼ばれ、学習の3つの段階を含む。
我々はAlphaNPI-Xがスパース操作の課題に効果的に取り組むことを実証的に示す。
- 参考スコア(独自算出の注目度): 62.80551956557359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel solution to challenging sparse-reward, continuous control
problems that require hierarchical planning at multiple levels of abstraction.
Our solution, dubbed AlphaNPI-X, involves three separate stages of learning.
First, we use off-policy reinforcement learning algorithms with experience
replay to learn a set of atomic goal-conditioned policies, which can be easily
repurposed for many tasks. Second, we learn self-models describing the effect
of the atomic policies on the environment. Third, the self-models are harnessed
to learn recursive compositional programs with multiple levels of abstraction.
The key insight is that the self-models enable planning by imagination,
obviating the need for interaction with the world when learning higher-level
compositional programs. To accomplish the third stage of learning, we extend
the AlphaNPI algorithm, which applies AlphaZero to learn recursive neural
programmer-interpreters. We empirically show that AlphaNPI-X can effectively
learn to tackle challenging sparse manipulation tasks, such as stacking
multiple blocks, where powerful model-free baselines fail.
- Abstract(参考訳): 複数の抽象化レベルで階層的計画を必要とする疎逆連続制御問題に対する新しい解を提案する。
我々のソリューションはAlphaNPI-Xと呼ばれ、3つの異なる学習段階を含む。
まず,多くのタスクで簡単に再利用できる原子目標条件付きポリシーの集合を学習するために,経験的再生を伴う非政治強化学習アルゴリズムを用いる。
第二に、環境に対する原子政策の影響を説明する自己モデルを学ぶ。
第三に、自己モデルは複数の抽象レベルで再帰的な構成プログラムを学ぶために利用される。
鍵となる洞察は、自己モデルが想像力による計画を可能にし、より高いレベルの構成プログラムを学ぶときの世界との相互作用の必要性をなくすことである。
学習の第3段階を達成するために、我々はAlphaNPIアルゴリズムを拡張し、AlphaZeroを用いて再帰的ニューラルプログラマ解釈を学習する。
我々はAlphaNPI-Xが、強力なモデルフリーベースラインが失敗する複数のブロックを積み重ねるなど、スパース操作の課題に効果的に対処できることを実証的に示す。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - KnowPC: Knowledge-Driven Programmatic Reinforcement Learning for Zero-shot Coordination [11.203441390685201]
ゼロショットコーディネート(ZSC)は、AI分野における大きな課題である。
本稿では,ZSCのための知識駆動型プログラム強化学習について紹介する。
重要な課題は、膨大なプログラム検索スペースであり、高性能なプログラムを効率的に見つけることは困難である。
論文 参考訳(メタデータ) (2024-08-08T09:43:54Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Active Predictive Coding: A Unified Neural Framework for Learning
Hierarchical World Models for Perception and Planning [1.3535770763481902]
能動予測符号化と呼ばれる予測符号化のための新しいフレームワークを提案する。
階層的な世界モデルを学び、AIの2つの根本的に異なるオープン問題を解くことができる。
論文 参考訳(メタデータ) (2022-10-23T05:44:22Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。