論文の概要: Discovering Hierarchical Achievements in Reinforcement Learning via
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2307.03486v3
- Date: Thu, 2 Nov 2023 06:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:08:56.788527
- Title: Discovering Hierarchical Achievements in Reinforcement Learning via
Contrastive Learning
- Title(参考訳): コントラスト学習による強化学習における階層的成果の発見
- Authors: Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song
- Abstract要約: 本稿では, エージェントが次の達成を予測する能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。
提案手法は,階層的な成果を見出すための強力な能力を示し,挑戦的なクラフト環境における最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 17.28280896937486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering achievements with a hierarchical structure in procedurally
generated environments presents a significant challenge. This requires an agent
to possess a broad range of abilities, including generalization and long-term
reasoning. Many prior methods have been built upon model-based or hierarchical
approaches, with the belief that an explicit module for long-term planning
would be advantageous for learning hierarchical dependencies. However, these
methods demand an excessive number of environment interactions or large model
sizes, limiting their practicality. In this work, we demonstrate that proximal
policy optimization (PPO), a simple yet versatile model-free algorithm,
outperforms previous methods when optimized with recent implementation
practices. Moreover, we find that the PPO agent can predict the next
achievement to be unlocked to some extent, albeit with limited confidence.
Based on this observation, we introduce a novel contrastive learning method,
called achievement distillation, which strengthens the agent's ability to
predict the next achievement. Our method exhibits a strong capacity for
discovering hierarchical achievements and shows state-of-the-art performance on
the challenging Crafter environment in a sample-efficient manner while
utilizing fewer model parameters.
- Abstract(参考訳): 手続き的生成環境における階層構造による成果の発見は大きな課題である。
これは、エージェントが一般化や長期的推論を含む幅広い能力を持つ必要がある。
多くの先行手法はモデルベースや階層的アプローチに基づいて構築されており、長期的な計画のための明示的なモジュールは階層的依存関係を学ぶ上で有利であると信じられている。
しかし、これらの手法は過剰な数の環境相互作用や大きなモデルサイズを必要とし、実用性を制限する。
そこで本研究では,PPO(proximal policy optimization)が,最近の実装手法に最適化された場合,従来の手法よりも優れていることを示す。
さらに, PPO エージェントは, 信頼性に限界はあるものの, 次の成果をある程度の確率で予測できることがわかった。
本研究は, エージェントが次の達成を予測できる能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。
提案手法は階層的な成果を見出すための強力な能力を示し,モデルパラメータの少ないサンプル効率で挑戦的なクラフト環境における最先端性能を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a
Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。
深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。