論文の概要: Learning Task Decomposition with Ordered Memory Policy Network
- arxiv url: http://arxiv.org/abs/2103.10972v1
- Date: Fri, 19 Mar 2021 18:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:56:44.598857
- Title: Learning Task Decomposition with Ordered Memory Policy Network
- Title(参考訳): 順序付きメモリポリシネットワークによるタスク分割の学習
- Authors: Yuchen Lu, Yikang Shen, Siyuan Zhou, Aaron Courville, Joshua B.
Tenenbaum, Chuang Gan
- Abstract要約: OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
- 参考スコア(独自算出の注目度): 73.3813423684999
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many complex real-world tasks are composed of several levels of sub-tasks.
Humans leverage these hierarchical structures to accelerate the learning
process and achieve better generalization. In this work, we study the inductive
bias and propose Ordered Memory Policy Network (OMPN) to discover subtask
hierarchy by learning from demonstration. The discovered subtask hierarchy
could be used to perform task decomposition, recovering the subtask boundaries
in an unstruc-tured demonstration. Experiments on Craft and Dial demonstrate
that our modelcan achieve higher task decomposition performance under both
unsupervised and weakly supervised settings, comparing with strong baselines.
OMPN can also bedirectly applied to partially observable environments and still
achieve higher task decomposition performance. Our visualization further
confirms that the subtask hierarchy can emerge in our model.
- Abstract(参考訳): 多くの複雑な現実世界のタスクはいくつかのレベルのサブタスクで構成されている。
人間はこれらの階層構造を利用して学習プロセスを加速し、より良い一般化を達成する。
本研究では,インダクティブバイアスを研究し,実演から学習することでサブタスク階層を発見するための順序記憶ポリシーネットワーク(ompn)を提案する。
検出されたサブタスク階層はタスクの分解や、未解決のデモンストレーションでサブタスク境界の回復に使用できる。
craft と dial の実験では,非教師なし設定と弱い教師なし設定の両方において,強いベースラインと比較して高いタスク分解性能を達成可能であることを実証した。
ompnは部分的に観測可能な環境にも直接適用でき、タスクの分解性能も向上する。
私たちの視覚化は、サブタスク階層がモデルに現れることをさらに確認します。
関連論文リスト
- Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文 参考訳(メタデータ) (2024-10-28T23:47:43Z) - On the benefits of pixel-based hierarchical policies for task generalization [7.207480346660617]
強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
論文 参考訳(メタデータ) (2024-07-27T01:26:26Z) - Neural Sculpting: Uncovering hierarchically modular task structure in
neural networks through pruning and network analysis [8.080026425139708]
階層的なモジュラーニューラルネットワークは、学習効率、一般化、マルチタスク学習、転送などの利点を提供する。
本稿では,繰り返し単位とエッジプルーニング(訓練中)に基づくアプローチと,モジュール検出と階層推論のためのネットワーク解析の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-05-28T15:12:32Z) - Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。
このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。
Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-05T17:28:20Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。