Fugu-MT 論文翻訳(概要): Learning Task Decomposition with Ordered Memory Policy Network

論文の概要: Learning Task Decomposition with Ordered Memory Policy Network

arxiv url: http://arxiv.org/abs/2103.10972v1
Date: Fri, 19 Mar 2021 18:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-23 14:56:44.598857
Title: Learning Task Decomposition with Ordered Memory Policy Network
Title（参考訳）: 順序付きメモリポリシネットワークによるタスク分割の学習
Authors: Yuchen Lu, Yikang Shen, Siyuan Zhou, Aaron Courville, Joshua B. Tenenbaum, Chuang Gan
Abstract要約: OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。 ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
参考スコア（独自算出の注目度）: 73.3813423684999
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Many complex real-world tasks are composed of several levels of sub-tasks. Humans leverage these hierarchical structures to accelerate the learning process and achieve better generalization. In this work, we study the inductive bias and propose Ordered Memory Policy Network (OMPN) to discover subtask hierarchy by learning from demonstration. The discovered subtask hierarchy could be used to perform task decomposition, recovering the subtask boundaries in an unstruc-tured demonstration. Experiments on Craft and Dial demonstrate that our modelcan achieve higher task decomposition performance under both unsupervised and weakly supervised settings, comparing with strong baselines. OMPN can also bedirectly applied to partially observable environments and still achieve higher task decomposition performance. Our visualization further confirms that the subtask hierarchy can emerge in our model.
Abstract（参考訳）: 多くの複雑な現実世界のタスクはいくつかのレベルのサブタスクで構成されている。人間はこれらの階層構造を利用して学習プロセスを加速し、より良い一般化を達成する。本研究では,インダクティブバイアスを研究し,実演から学習することでサブタスク階層を発見するための順序記憶ポリシーネットワーク(ompn)を提案する。検出されたサブタスク階層はタスクの分解や、未解決のデモンストレーションでサブタスク境界の回復に使用できる。 craft と dial の実験では,非教師なし設定と弱い教師なし設定の両方において,強いベースラインと比較して高いタスク分解性能を達成可能であることを実証した。 ompnは部分的に観測可能な環境にも直接適用でき、タスクの分解性能も向上する。私たちの視覚化は、サブタスク階層がモデルに現れることをさらに確認します。

関連論文リスト

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis [15.68979922374718]
ASHiTAは、ハイレベルなタスクをグラウンド化されたサブタスクに分解することで、3Dシーングラフにグラウンドされたタスク階層を生成するフレームワークである。実験の結果,ASHiTAは環境依存サブタスクに高レベルタスクを分割する際のLCMベースラインよりもはるかに優れた性能を示した。
論文参考訳（メタデータ） (2025-04-09T03:22:52Z)
Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-28T01:25:37Z)
Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge [12.367471198090655]
Task Arithmetic (TA)は、微調整から派生したタスクベクトルを組み合わせることで、マルチタスク学習とタスク忘れを可能にするが、一般的な指示追従行動からタスク固有の知識を分離するのに苦労する。本稿では,命令フォローやタスク固有のコンポーネントとのアライメントに基づいて,階層固有の重みをタスクベクトルに割り当てる新しい手法であるLayer-Aware Task Arithmetic (LATA)を提案する。
論文参考訳（メタデータ） (2025-02-27T15:22:14Z)
Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文参考訳（メタデータ） (2024-10-28T23:47:43Z)
On the benefits of pixel-based hierarchical policies for task generalization [7.207480346660617]
強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
論文参考訳（メタデータ） (2024-07-27T01:26:26Z)
Neural Sculpting: Uncovering hierarchically modular task structure in neural networks through pruning and network analysis [8.080026425139708]
階層的なモジュラーニューラルネットワークは、学習効率、一般化、マルチタスク学習、転送などの利点を提供する。本稿では,繰り返し単位とエッジプルーニング(訓練中)に基づくアプローチと,モジュール検出と階層推論のためのネットワーク解析の組み合わせを提案する。
論文参考訳（メタデータ） (2023-05-28T15:12:32Z)
Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。 Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文参考訳（メタデータ） (2022-10-05T17:28:20Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)
Learning Functionally Decomposed Hierarchies for Continuous Control Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文参考訳（メタデータ） (2020-02-14T10:19:52Z)
Hierarchical Reinforcement Learning as a Model of Human Task Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。このモデルは、タスクインターリービングの既知の経験的効果を再現する。その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文参考訳（メタデータ） (2020-01-04T17:53:28Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。