Fugu-MT 論文翻訳(概要): Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models

論文の概要: Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models

arxiv url: http://arxiv.org/abs/2410.07404v1
Date: Wed, 9 Oct 2024 20:05:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 20:37:14.232476
Title: Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models
Title（参考訳）: 事前学習基礎モデルを用いた強化学習における本質的な動機づけ
Authors: Alain Andres, Javier Del Ser,
Abstract要約: CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
参考スコア（独自算出の注目度）: 8.255197802529118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exploration remains a significant challenge in reinforcement learning, especially in environments where extrinsic rewards are sparse or non-existent. The recent rise of foundation models, such as CLIP, offers an opportunity to leverage pretrained, semantically rich embeddings that encapsulate broad and reusable knowledge. In this work we explore the potential of these foundation models not just to drive exploration, but also to analyze the critical role of the episodic novelty term in enhancing exploration effectiveness of the agent. We also investigate whether providing the intrinsic module with complete state information -- rather than just partial observations -- can improve exploration, despite the difficulties in handling small variations within large state spaces. Our experiments in the MiniGrid domain reveal that intrinsic modules can effectively utilize full state information, significantly increasing sample efficiency while learning an optimal policy. Moreover, we show that the embeddings provided by foundation models are sometimes even better than those constructed by the agent during training, further accelerating the learning process, especially when coupled with the episodic novelty term to enhance exploration.
Abstract（参考訳）: 探究は強化学習において重要な課題であり、特に外因性報酬が希少であるか存在しない環境では重要な課題である。 CLIPのような最近の基盤モデルの台頭は、広く再利用可能な知識をカプセル化した事前訓練された、意味的にリッチな埋め込みを活用する機会を提供する。本研究は,これらの基盤モデルが探索を促進するだけでなく,エージェントの探索効果を高める上でのエピソード・ノベルティ項の重要な役割を分析することを目的としている。また,大きな状態空間における小さな変動を扱うのが困難であるにもかかわらず,本文モジュールに完全な状態情報(部分的な観測よりもむしろ)を提供することで探索を改善することができるかどうかについても検討する。我々のMiniGrid領域における実験により、本質的なモジュールは、最適なポリシーを学習しながらサンプル効率を大幅に向上させ、完全な状態情報を有効に活用できることが判明した。さらに,基礎モデルによって提供される埋め込みは,訓練中のエージェントが構築したものよりもさらに優れている場合があり,特に探究力を高めるために,エピソディックなノベルティ用語と組み合わせた場合,学習プロセスが促進されることが示唆された。

関連論文リスト

On Efficient Bayesian Exploration in Model-Based Reinforcement Learning [0.24578723416255752]
本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
論文参考訳（メタデータ） (2025-07-03T14:03:47Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Disentangling Exploration of Large Language Models by Optimal Exploitation [3.633554611703142]
この作業は、探索を唯一の目的として分離し、エージェントに将来のリターンを高める情報の提供を任せる。様々なモデルによる総合的な実験は、ほとんどの場合、状態空間を十分に探索するのに苦労していることを示している。パラメータカウントと探索性能の正の相関を観測し,より大きなモデルで優れた性能を示す。
論文参考訳（メタデータ） (2025-01-15T16:30:29Z)
Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文参考訳（メタデータ） (2024-11-01T10:21:12Z)
Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-10-04T17:17:30Z)
RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。 RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2024-05-29T22:23:20Z)
Unsupervised Temporal Action Localization via Self-paced Incremental Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。 Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文参考訳（メタデータ） (2023-08-19T05:27:48Z)
Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文参考訳（メタデータ） (2022-10-01T14:52:16Z)
An information-theoretic perspective on intrinsic motivation in reinforcement learning: a survey [0.0]
本稿では,これらの研究成果を情報理論に基づく新たな分類法を用いて調査することを提案する。我々は、サプライズ、ノベルティ、スキル学習の概念を計算的に再考する。我々の分析は、新規性とサプライズがトランスファー可能なスキルの階層を構築するのに役立つことを示唆している。
論文参考訳（メタデータ） (2022-09-19T09:47:43Z)
Sample-Efficient Reinforcement Learning in the Presence of Exogenous Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文参考訳（メタデータ） (2022-06-09T05:19:32Z)
A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文参考訳（メタデータ） (2021-09-01T02:36:14Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。