論文の概要: Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.00247v1
- Date: Tue, 1 Nov 2022 03:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:17:39.569577
- Title: Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning
- Title(参考訳): ゴール条件強化学習の抽象化としての離散的因子表現
- Authors: Riashat Islam, Hongyu Zang, Anirudh Goyal, Alex Lamb, Kenji Kawaguchi,
Xin Li, Romain Laroche, Yoshua Bengio, Remi Tachet Des Combes
- Abstract要約: 離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
- 参考スコア(独自算出の注目度): 99.38163119531745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-conditioned reinforcement learning (RL) is a promising direction for
training agents that are capable of solving multiple tasks and reach a diverse
set of objectives. How to \textit{specify} and \textit{ground} these goals in
such a way that we can both reliably reach goals during training as well as
generalize to new goals during evaluation remains an open area of research.
Defining goals in the space of noisy and high-dimensional sensory inputs poses
a challenge for training goal-conditioned agents, or even for generalization to
novel goals. We propose to address this by learning factorial representations
of goals and processing the resulting representation via a discretization
bottleneck, for coarser goal specification, through an approach we call DGRL.
We show that applying a discretizing bottleneck can improve performance in
goal-conditioned RL setups, by experimentally evaluating this method on tasks
ranging from maze environments to complex robotic navigation and manipulation.
Additionally, we prove a theorem lower-bounding the expected return on
out-of-distribution goals, while still allowing for specifying goals with
expressive combinatorial structure.
- Abstract(参考訳): 目標条件強化学習(RL)は、複数のタスクを解決し、多様な目的を達成する訓練エージェントにとって有望な方向である。
これらの目標を、トレーニング中に確実に目標に到達できると同時に、評価中に新しい目標に一般化できるような方法で、どうやって \textit{specify} と \textit{ground} にするかは、研究のオープン領域のままである。
雑音と高次元感覚入力の空間における目標を定義することは、目標条件付きエージェントの訓練や、新しい目標への一般化に挑戦する。
そこで我々は,DGRLと呼ぶ手法を用いて,目標の因子的表現を学習し,離散化ボトルネックによる結果の表現を粗い目標仕様のために処理することを提案する。
本研究では,モーズ環境から複雑なロボットナビゲーションや操作に至るまでのタスクにおいて,この手法を実験的に評価することにより,目標条件付きRLセットアップの性能を向上させることができることを示す。
さらに, 分散目標に対する期待帰納率を低く抑える定理を証明し, 表現的組合せ構造による目標の特定を可能とした。
関連論文リスト
- Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Hierarchical and Partially Observable Goal-driven Policy Learning with
Goals Relational Graph [21.260858893505183]
目標グラフ(GRG)を用いた新しい2層階層学習手法を提案する。
我々のGRGはディリクレカテゴリーのプロセスを通じて、ゴール空間におけるすべてのゴールの根底にある関係を捉えます。
実験の結果,我々のアプローチは未発見の環境と新しい目標の両方において優れた一般化を示すことがわかった。
論文 参考訳(メタデータ) (2021-03-01T23:21:46Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。