論文の概要: Policy composition in reinforcement learning via multi-objective policy
optimization
- arxiv url: http://arxiv.org/abs/2308.15470v2
- Date: Wed, 30 Aug 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 10:32:25.696180
- Title: Policy composition in reinforcement learning via multi-objective policy
optimization
- Title(参考訳): 多目的政策最適化による強化学習における政策構成
- Authors: Shruti Mishra, Ankit Anand, Jordan Hoffmann, Nicolas Heess, Martin
Riedmiller, Abbas Abdolmaleki, Doina Precup
- Abstract要約: 教師の政策が学習のスピードアップ,特に報酬形成の欠如に有効であることを示す。
ヒューマノイド領域では、エージェントに教師の選択を制御する能力も備えている。
- 参考スコア(独自算出の注目度): 44.23907077052036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We enable reinforcement learning agents to learn successful behavior policies
by utilizing relevant pre-existing teacher policies. The teacher policies are
introduced as objectives, in addition to the task objective, in a
multi-objective policy optimization setting. Using the Multi-Objective Maximum
a Posteriori Policy Optimization algorithm (Abdolmaleki et al. 2020), we show
that teacher policies can help speed up learning, particularly in the absence
of shaping rewards. In two domains with continuous observation and action
spaces, our agents successfully compose teacher policies in sequence and in
parallel, and are also able to further extend the policies of the teachers in
order to solve the task.
Depending on the specified combination of task and teacher(s), teacher(s) may
naturally act to limit the final performance of an agent. The extent to which
agents are required to adhere to teacher policies are determined by
hyperparameters which determine both the effect of teachers on learning speed
and the eventual performance of the agent on the task. In the humanoid domain
(Tassa et al. 2018), we also equip agents with the ability to control the
selection of teachers. With this ability, agents are able to meaningfully
compose from the teacher policies to achieve a superior task reward on the walk
task than in cases without access to the teacher policies. We show the
resemblance of composed task policies with the corresponding teacher policies
through videos.
- Abstract(参考訳): 強化学習エージェントは,既存の教員政策を活用し,行動方針を身につけることができる。
教師ポリシーは、タスク目的に加えて、多目的ポリシー最適化設定で目的として導入される。
本研究は,多目的最大後進政策最適化アルゴリズム(abdolmaleki et al. 2020)を用いて,教師の政策が学習のスピードアップに寄与することを示す。
連続的な観察と行動空間を持つ2つの領域において,我々のエージェントは,教師の方針を逐次かつ並列に構成し,その課題を解決するために教師の方針をさらに拡張することができる。
タスクと教師の組み合わせによっては、教師はエージェントの最終的なパフォーマンスを制限するために自然に行動することができる。
エージェントが教師の方針に従わなければならない程度はハイパーパラメーターによって決定され、教師の学習速度とエージェントの最終的なパフォーマンスがタスクに与える影響を判定する。
ヒューマノイドドメイン(tassa et al. 2018)では、エージェントに教師の選択を制御する能力も備えています。
この能力により、エージェントは教師の方針から有意義に構成することができ、教師の方針にアクセスできない場合よりも優れたタスク報酬を達成することができる。
構成した課題政策と対応する教員政策の類似性をビデオで示す。
関連論文リスト
- Online Policy Distillation with Decision-Attention [23.807761525617384]
政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
同一環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。
意思決定を伴うオンライン政策蒸留(OPD)を提案する。
論文 参考訳(メタデータ) (2024-06-08T14:40:53Z) - Guarded Policy Optimization with Imperfect Online Demonstrations [32.22880650876471]
Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。
成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。
そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
論文 参考訳(メタデータ) (2023-03-03T06:24:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Lifetime policy reuse and the importance of task capacity [6.390849000337326]
政策再利用やその他の多目的強化学習技術は、複数のタスクを学習できるが、多くのポリシーを生成する可能性がある。
本稿では, ライフサイクルポリシー再利用アルゴリズムのライフサイクル・ポリシー・リユース(Lifetime Policy Reuse)について述べる。
その結果,最大125タスクのPacmanドメインとCartpoleドメインにおいて,ライフタイムポリシー再利用とタスクキャパシティに基づく事前選択の重要性が示された。
論文 参考訳(メタデータ) (2021-06-03T10:42:49Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Privacy-Preserving Teacher-Student Deep Reinforcement Learning [23.934121758649052]
教師のトレーニングデータセットのプライバシーを保護するプライベートなメカニズムを開発しています。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
論文 参考訳(メタデータ) (2021-02-18T20:15:09Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。