論文の概要: Solving Compositional Reinforcement Learning Problems via Task Reduction
- arxiv url: http://arxiv.org/abs/2103.07607v1
- Date: Sat, 13 Mar 2021 03:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 04:52:17.601327
- Title: Solving Compositional Reinforcement Learning Problems via Task Reduction
- Title(参考訳): タスク削減による構成強化学習問題の解法
- Authors: Yunfei Li, Yilin Wu, Huazhe Xu, Xiaolong Wang, Yi Wu
- Abstract要約: 構成強化学習の課題を解決するための新しい学習パラダイムであるSelf-Imitation via reduction (SIR)を提案する。
SIRは、タスクの削減と自己模倣の2つのコアアイデアに基づいています。
実験の結果、sirは様々な難易度の低い連続制御問題の学習を著しく加速し改善できることが示されている。
- 参考スコア(独自算出の注目度): 18.120631058025406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel learning paradigm, Self-Imitation via Reduction (SIR), for
solving compositional reinforcement learning problems. SIR is based on two core
ideas: task reduction and self-imitation. Task reduction tackles a
hard-to-solve task by actively reducing it to an easier task whose solution is
known by the RL agent. Once the original hard task is successfully solved by
task reduction, the agent naturally obtains a self-generated solution
trajectory to imitate. By continuously collecting and imitating such
demonstrations, the agent is able to progressively expand the solved subspace
in the entire task space. Experiment results show that SIR can significantly
accelerate and improve learning on a variety of challenging sparse-reward
continuous-control problems with compositional structures.
- Abstract(参考訳): 本稿では,合成強化学習問題を解決するための新しい学習パラダイム,SIR(Self-Imitation via Reduction)を提案する。
SIRは2つの中核的な考え方に基づいている。
タスクリダクションは、RLエージェントによって解が知られている簡単なタスクに積極的に還元することで、解決し難いタスクに取り組む。
タスク削減によって元のハードタスクがうまく解決されると、エージェントは自然に模倣する自己生成のソリューション軌跡を得る。
このようなデモンストレーションを継続的に収集し模倣することにより、エージェントはタスク空間全体において解決された部分空間を徐々に拡張することができる。
実験の結果,sirは,構成構造を持つ難易度の低い連続制御問題において,学習を著しく促進し改善できることが示されている。
関連論文リスト
- Reduce, Reuse, Recycle: Categories for Compositional Reinforcement Learning [19.821117942806474]
我々は圏論のプリズムを通してタスク構成を考察する。
マルコフ決定過程の分類的性質は、複雑なタスクを管理可能なサブタスクに切り離す。
実験結果は強化学習のカテゴリー理論を支持する。
論文 参考訳(メタデータ) (2024-08-23T21:23:22Z) - Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning [1.8399318639816038]
我々は,レキシコグラフィーの優先度でサブタスクソリューションを学習し,適応するための優先度付きソフトQ分解(PSQD)を提案する。
PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。
我々は,低次元と高次元の両方のロボット制御タスクに対して,学習,再利用,適応性を成功させ,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-03T18:36:21Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition [11.998708550268978]
本稿では,タスクをよりシンプルなマルチエージェントサブタスクに分解する手法を提案する。
各サブタスクでは、チーム全体のサブセットが、サブタスク固有のポリシを取得するようにトレーニングされる。
サブチームはマージされ、ターゲットタスクに転送される。そこでは、そのポリシーは、より複雑なターゲットタスクを解決するために、まとめて微調整される。
論文 参考訳(メタデータ) (2023-02-09T21:24:56Z) - Relay Hindsight Experience Replay: Continual Reinforcement Learning for
Robot Manipulation Tasks with Sparse Rewards [26.998587654269873]
我々はRelay-HER(RHER)と呼ばれるモデルなし連続RLアルゴリズムを提案する。
提案手法はまず,元の長軸タスクを段階的に複雑化した新しいサブタスクに分解,再配置する。
実験の結果,5つのロボット操作作業において,バニラ-HERに比べてRHERのサンプル効率が有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-08-01T13:30:01Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。