Fugu-MT 論文翻訳(概要): RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning

論文の概要: RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.19548v1
Date: Wed, 29 May 2024 22:23:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 18:56:18.064072
Title: RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning
Title（参考訳）: RLeXplore: 本質的な動機付け強化学習における加速研究
Authors: Mingqi Yuan, Roger Creus Castanyer, Bo Li, Xin Jin, Glen Berseth, Wenjun Zeng,
Abstract要約: 外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。 RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
参考スコア（独自算出の注目度）: 50.55776190278426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extrinsic rewards can effectively guide reinforcement learning (RL) agents in specific tasks. However, extrinsic rewards frequently fall short in complex environments due to the significant human effort needed for their design and annotation. This limitation underscores the necessity for intrinsic rewards, which offer auxiliary and dense signals and can enable agents to learn in an unsupervised manner. Although various intrinsic reward formulations have been proposed, their implementation and optimization details are insufficiently explored and lack standardization, thereby hindering research progress. To address this gap, we introduce RLeXplore, a unified, highly modularized, and plug-and-play framework offering reliable implementations of eight state-of-the-art intrinsic reward algorithms. Furthermore, we conduct an in-depth study that identifies critical implementation details and establishes well-justified standard practices in intrinsically-motivated RL. The source code for RLeXplore is available at https://github.com/RLE-Foundation/RLeXplore.
Abstract（参考訳）: 外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。しかしながら、外在的な報酬は、設計やアノテーションに必要な人的労力のために、複雑な環境でしばしば不足する。この制限は、補助的かつ高密度な信号を提供し、エージェントが教師なしの方法で学習できるようにする本質的な報酬の必要性を浮き彫りにする。様々な本質的な報酬の定式化が提案されているが、その実装と最適化の詳細は不十分であり、標準化が欠如しているため、研究の進展を妨げている。このギャップに対処するため、我々はRLeXploreを紹介した。RLeXploreは8つの最先端固有の報酬アルゴリズムの信頼性のある実装を提供する統一的で高度にモジュール化されたプラグイン・アンド・プレイのフレームワークである。さらに、重要な実装の詳細を特定し、本質的な動機付けRLにおける適切な標準プラクティスを確立するための詳細な研究を行う。 RLeXploreのソースコードはhttps://github.com/RLE-Foundation/RLeXploreで公開されている。

関連論文リスト

Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning [1.607353805620917]
不完全かつ不完全であっても、専門家によるデモンストレーションを効果的に活用できるフレームワークを提案する。私たちはMixturecoder Autoen Expertsを使って、デモでさまざまな振る舞いや不足した情報をキャプチャします。
論文参考訳（メタデータ） (2025-07-21T06:38:46Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Exploratory Diffusion Model for Unsupervised Reinforcement Learning [28.413426177336703]
非教師なし強化学習(URL)は、報酬のない環境で多様な状態やスキルを探索し、エージェントを事前訓練することを目的としている。既存の手法は、探索されたデータをモデル化し、さらなる探索を促進するために本質的な報酬を設計する。実験データに適合する拡散モデルの強い表現能力を利用する探索拡散モデル(ExDM)を提案する。
論文参考訳（メタデータ） (2025-02-11T05:48:51Z)
Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。 PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。 LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T04:21:24Z)
RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation [40.84214941048131]
RICEは強化学習のための革新的な精製手法である。トレーニングボトルネックを突破するための説明手法が組み込まれている。様々なRL環境と実世界のアプリケーションでRICEを評価する。
論文参考訳（メタデータ） (2024-05-05T22:06:42Z)
PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
DEIR: Efficient and Robust Exploration through Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文参考訳（メタデータ） (2023-04-21T06:39:38Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文参考訳（メタデータ） (2022-10-18T04:21:25Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文参考訳（メタデータ） (2020-01-20T02:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。