論文の概要: Deep Reinforcement Learning with Hybrid Intrinsic Reward Model
- arxiv url: http://arxiv.org/abs/2501.12627v1
- Date: Wed, 22 Jan 2025 04:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:04.548126
- Title: Deep Reinforcement Learning with Hybrid Intrinsic Reward Model
- Title(参考訳): ハイブリッド内在リワードモデルによる深層強化学習
- Authors: Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng,
- Abstract要約: 内在的な報酬形成は、ハード探索とスパース・リワードの環境を解決するための一般的なアプローチとして現れている。
故意融合戦略を通じてハイブリッドな内因性報酬を作成するためのフレームワークであるHIRE(Hybrid Intrinsic Reward)を紹介する。
- 参考スコア(独自算出の注目度): 50.53705050673944
- License:
- Abstract: Intrinsic reward shaping has emerged as a prevalent approach to solving hard-exploration and sparse-rewards environments in reinforcement learning (RL). While single intrinsic rewards, such as curiosity-driven or novelty-based methods, have shown effectiveness, they often limit the diversity and efficiency of exploration. Moreover, the potential and principle of combining multiple intrinsic rewards remains insufficiently explored. To address this gap, we introduce HIRE (Hybrid Intrinsic REward), a flexible and elegant framework for creating hybrid intrinsic rewards through deliberate fusion strategies. With HIRE, we conduct a systematic analysis of the application of hybrid intrinsic rewards in both general and unsupervised RL across multiple benchmarks. Extensive experiments demonstrate that HIRE can significantly enhance exploration efficiency and diversity, as well as skill acquisition in complex and dynamic settings.
- Abstract(参考訳): 強化学習(RL)において,本質的な報酬形成がハード探索とスパース・リワード環境の解決への一般的なアプローチとして現れてきた。
好奇心駆動法や新規性に基づく手法のような単一の本質的な報酬は有効性を示しているが、探索の多様性と効率を制限していることが多い。
さらに、複数の本質的な報酬を組み合わせる可能性や原理はいまだに不十分である。
このギャップに対処するために、故意の融合戦略を通じてハイブリッドな内在報酬を作成するためのフレキシブルでエレガントなフレームワークHIRE(Hybrid Intrinsic Reward)を紹介する。
HIREでは、複数のベンチマークで一般および教師なしRLのハイブリッド固有報酬の適用を体系的に分析する。
大規模な実験により、HIREは探索効率と多様性を著しく向上し、複雑でダイナミックな環境でのスキル獲得が可能であることが示された。
関連論文リスト
- Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning [5.242869847419834]
リワード整形(Reward shaping)は、より頻繁で情報的な報酬を提供することで、スパース逆問題に対処する強化学習の技法である。
歴史的経験から得られた成功率を形づくりの報酬として組み込んだ自己適応的かつ高効率な報酬形成機構を導入する。
提案手法は, 各種タスクにおいて, 極めて少ない報奨で検証され, サンプル効率と収束安定性の顕著な向上が示された。
論文 参考訳(メタデータ) (2024-08-06T08:22:16Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual
Intrinsic Reward Mixing Network [2.057898896648108]
協調型マルチエージェント強化学習(MARL)において、各エージェントの貢献を減らし、それに対応する報酬を割り当てることは重要な問題である。
従来の研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は単に要約による環境報酬と組み合わせられる。
本稿では,MARLにおける個別固有逆混合ネットワーク(AIIR-mix)を提案する。
論文 参考訳(メタデータ) (2023-02-19T10:25:25Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。