論文の概要: Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models
- arxiv url: http://arxiv.org/abs/2410.07404v1
- Date: Wed, 9 Oct 2024 20:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 20:37:14.232476
- Title: Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models
- Title(参考訳): 事前学習基礎モデルを用いた強化学習における本質的な動機づけ
- Authors: Alain Andres, Javier Del Ser,
- Abstract要約: CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。
導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。
基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
- 参考スコア(独自算出の注目度): 8.255197802529118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration remains a significant challenge in reinforcement learning, especially in environments where extrinsic rewards are sparse or non-existent. The recent rise of foundation models, such as CLIP, offers an opportunity to leverage pretrained, semantically rich embeddings that encapsulate broad and reusable knowledge. In this work we explore the potential of these foundation models not just to drive exploration, but also to analyze the critical role of the episodic novelty term in enhancing exploration effectiveness of the agent. We also investigate whether providing the intrinsic module with complete state information -- rather than just partial observations -- can improve exploration, despite the difficulties in handling small variations within large state spaces. Our experiments in the MiniGrid domain reveal that intrinsic modules can effectively utilize full state information, significantly increasing sample efficiency while learning an optimal policy. Moreover, we show that the embeddings provided by foundation models are sometimes even better than those constructed by the agent during training, further accelerating the learning process, especially when coupled with the episodic novelty term to enhance exploration.
- Abstract(参考訳): 探究は強化学習において重要な課題であり、特に外因性報酬が希少であるか存在しない環境では重要な課題である。
CLIPのような最近の基盤モデルの台頭は、広く再利用可能な知識をカプセル化した事前訓練された、意味的にリッチな埋め込みを活用する機会を提供する。
本研究は,これらの基盤モデルが探索を促進するだけでなく,エージェントの探索効果を高める上でのエピソード・ノベルティ項の重要な役割を分析することを目的としている。
また,大きな状態空間における小さな変動を扱うのが困難であるにもかかわらず,本文モジュールに完全な状態情報(部分的な観測よりもむしろ)を提供することで探索を改善することができるかどうかについても検討する。
我々のMiniGrid領域における実験により、本質的なモジュールは、最適なポリシーを学習しながらサンプル効率を大幅に向上させ、完全な状態情報を有効に活用できることが判明した。
さらに,基礎モデルによって提供される埋め込みは,訓練中のエージェントが構築したものよりもさらに優れている場合があり,特に探究力を高めるために,エピソディックなノベルティ用語と組み合わせた場合,学習プロセスが促進されることが示唆された。
関連論文リスト
- Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Unsupervised Temporal Action Localization via Self-paced Incremental
Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - An information-theoretic perspective on intrinsic motivation in
reinforcement learning: a survey [0.0]
本稿では,これらの研究成果を情報理論に基づく新たな分類法を用いて調査することを提案する。
我々は、サプライズ、ノベルティ、スキル学習の概念を計算的に再考する。
我々の分析は、新規性とサプライズがトランスファー可能なスキルの階層を構築するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2022-09-19T09:47:43Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。
本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文 参考訳(メタデータ) (2021-09-01T02:36:14Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。