論文の概要: DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies
- arxiv url: http://arxiv.org/abs/2104.11707v1
- Date: Fri, 23 Apr 2021 16:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:12:15.605927
- Title: DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies
- Title(参考訳): DisCo RL:一般目的政策のための分散型強化学習
- Authors: Soroush Nasiriany, Vitchyr H. Pong, Ashvin Nair, Alexander Khazatsky,
Glen Berseth, Sergey Levine
- Abstract要約: 分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
- 参考スコア(独自算出の注目度): 116.12670064963625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can we use reinforcement learning to learn general-purpose policies that can
perform a wide range of different tasks, resulting in flexible and reusable
skills? Contextual policies provide this capability in principle, but the
representation of the context determines the degree of generalization and
expressivity. Categorical contexts preclude generalization to entirely new
tasks. Goal-conditioned policies may enable some generalization, but cannot
capture all tasks that might be desired. In this paper, we propose goal
distributions as a general and broadly applicable task representation suitable
for contextual policies. Goal distributions are general in the sense that they
can represent any state-based reward function when equipped with an appropriate
distribution class, while the particular choice of distribution class allows us
to trade off expressivity and learnability. We develop an off-policy algorithm
called distribution-conditioned reinforcement learning (DisCo RL) to
efficiently learn these policies. We evaluate DisCo RL on a variety of robot
manipulation tasks and find that it significantly outperforms prior methods on
tasks that require generalization to new goal distributions.
- Abstract(参考訳): 強化学習を使って、さまざまなタスクを実行し、フレキシブルで再利用可能なスキルを身につける汎用的なポリシを学べるのか?
文脈ポリシーは原則としてこの能力を提供するが、文脈の表現は一般化の度合いと表現性を決定する。
カテゴリー的文脈は、全く新しいタスクへの一般化を妨げる。
ゴール条件ポリシーはいくつかの一般化を可能にするが、要求されるすべてのタスクをキャプチャできない。
本稿では,コンテキストポリシーに適した汎用的かつ広く適用可能なタスク表現として,目標分布を提案する。
目標分布は、適切な分布クラスを備えた場合、任意の状態ベースの報酬関数を表現できるという意味で一般的であり、一方、分布クラスの特定の選択は、表現性と学習可能性のトレードオフを可能にする。
本研究では,分散条件強化学習(disco rl)と呼ばれるオフポリシーアルゴリズムを開発し,これらのポリシーを効率的に学習する。
我々はdisco rlを様々なロボット操作タスクで評価し,新しい目標分布への一般化を必要とするタスクにおいて,従来の手法を大きく上回っていることを見出した。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Generalization in Mean Field Games by Learning Master Policies [34.67098179276852]
平均フィールドゲーム(MFG)は、非常に多くのエージェントにマルチエージェントシステムを拡張できる可能性がある。
本研究では、一般化特性を活用して、典型的なエージェントが任意の人口分布に対して最適に振る舞うことができるような政策を学ぶ方法について研究する。
論文 参考訳(メタデータ) (2021-09-20T17:47:34Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Improving Generalization of Reinforcement Learning with Minimax
Distributional Soft Actor-Critic [11.601356612579641]
本稿では,RLアルゴリズムの一般化能力を向上させるために,ミニマックスの定式化と分散フレームワークを提案する。
我々は交差点における自動運転車の意思決定タスクに本手法を実装し,異なる環境下で訓練された政策を検証した。
論文 参考訳(メタデータ) (2020-02-13T14:09:22Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。