論文の概要: Diversity Progress for Goal Selection in Discriminability-Motivated RL
- arxiv url: http://arxiv.org/abs/2411.01521v1
- Date: Sun, 03 Nov 2024 10:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:18.051245
- Title: Diversity Progress for Goal Selection in Discriminability-Motivated RL
- Title(参考訳): 識別性動機付けRLにおけるゴール選択の多様性の進展
- Authors: Erik M. Lintunen, Nadia M. Ady, Christian Guckelsberger,
- Abstract要約: 目的条件付きRL「ダイバーシティ・プログレス」におけるゴール選択ポリシーの学習方法を提案する。
学習者は、目標セットに対する識別可能性の観察的改善に基づくカリキュラムを構成する。
DPをモチベーションとしたエージェントが,従来のアプローチよりも早く,識別可能なスキルのセットを学習できることを実証的に実証した。
- 参考スコア(独自算出の注目度): 0.20482269513546453
- License:
- Abstract: Non-uniform goal selection has the potential to improve the reinforcement learning (RL) of skills over uniform-random selection. In this paper, we introduce a method for learning a goal-selection policy in intrinsically-motivated goal-conditioned RL: "Diversity Progress" (DP). The learner forms a curriculum based on observed improvement in discriminability over its set of goals. Our proposed method is applicable to the class of discriminability-motivated agents, where the intrinsic reward is computed as a function of the agent's certainty of following the true goal being pursued. This reward can motivate the agent to learn a set of diverse skills without extrinsic rewards. We demonstrate empirically that a DP-motivated agent can learn a set of distinguishable skills faster than previous approaches, and do so without suffering from a collapse of the goal distribution -- a known issue with some prior approaches. We end with plans to take this proof-of-concept forward.
- Abstract(参考訳): 非一様ゴール選択は、一様ランダム選択よりも強化学習(RL)のスキルを向上させる可能性がある。
本稿では, 目的条件付きRL: "ダイバーシティ・プログレス" (DP) におけるゴール選択ポリシーの学習方法を紹介する。
学習者は、目標セットに対する識別可能性の観察的改善に基づくカリキュラムを構成する。
提案手法は識別可能性動機付けエージェントのクラスに適用できるが,本質的な報酬はエージェントが追求する真の目標に従うという確実性の関数として計算される。
この報酬は、エージェントが外因的な報酬なしで多様なスキルを学ぶ動機を与えることができる。
DPをモチベーションとしたエージェントが,従来のアプローチよりも早く,目標分布の崩壊に苦しむことなく,識別可能なスキルセットを学習できることを実証的に実証する。
最終的にはこの概念実証を先取りする計画です。
関連論文リスト
- Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。