論文の概要: Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.01404v1
- Date: Wed, 2 Jun 2021 18:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:19:53.237834
- Title: Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning
- Title(参考訳): 目標ベース強化学習のための表現学習としての変分エンパワーメント
- Authors: Jongwook Choi, Archit Sharma, Honglak Lee, Sergey Levine, Shixiang
Shane Gu
- Abstract要約: 本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
- 参考スコア(独自算出の注目度): 114.07623388322048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to reach goal states and learning diverse skills through mutual
information (MI) maximization have been proposed as principled frameworks for
self-supervised reinforcement learning, allowing agents to acquire broadly
applicable multitask policies with minimal reward engineering. Starting from a
simple observation that the standard goal-conditioned RL (GCRL) is encapsulated
by the optimization objective of variational empowerment, we discuss how GCRL
and MI-based RL can be generalized into a single family of methods, which we
name variational GCRL (VGCRL), interpreting variational MI maximization, or
variational empowerment, as representation learning methods that acquire
functionally-aware state representations for goal reaching. This novel
perspective allows us to: (1) derive simple but unexplored variants of GCRL to
study how adding small representation capacity can already expand its
capabilities; (2) investigate how discriminator function capacity and
smoothness determine the quality of discovered skills, or latent goals, through
modifying latent dimensionality and applying spectral normalization; (3) adapt
techniques such as hindsight experience replay (HER) from GCRL to MI-based RL;
and lastly, (4) propose a novel evaluation metric, named latent goal reaching
(LGR), for comparing empowerment algorithms with different choices of latent
dimensionality and discriminator parameterization. Through principled
mathematical derivations and careful experimental studies, our work lays a
novel foundation from which to evaluate, analyze, and develop representation
learning techniques in goal-based RL.
- Abstract(参考訳): 目標達成のための学習と相互情報(MI)の最大化による多様なスキルの学習が,自己指導型強化学習の原則として提案されている。
標準目標条件付きRL(GCRL)が変分エンハンスメントの最適化目標によってカプセル化されているという単純な観察から始まり、GCRLとMIベースのRLを単一のファミリに一般化し、変分型GCRL(VGCRL)、変分MI最大化、変分エンハンスメントをゴールゴール達成のための機能的に認識された状態表現を取得する表現学習手法として解釈する。
This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization.
原理的数学的導出と注意深い実験研究を通じて,本研究は,目標ベースrlにおける表現学習手法の評価,解析,開発のための新しい基礎を築いている。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。