論文の概要: Intrinsically-Motivated Reinforcement Learning: A Brief Introduction
- arxiv url: http://arxiv.org/abs/2203.02298v1
- Date: Thu, 3 Mar 2022 12:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 04:54:28.011574
- Title: Intrinsically-Motivated Reinforcement Learning: A Brief Introduction
- Title(参考訳): 本質的動機づけによる強化学習: 簡単な紹介
- Authors: Mingqi Yuan
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning (RL) is one of the three basic paradigms of machine
learning. It has demonstrated impressive performance in many complex tasks like
Go and StarCraft, which is increasingly involved in smart manufacturing and
autonomous driving. However, RL consistently suffers from the
exploration-exploitation dilemma. In this paper, we investigated the problem of
improving exploration in RL and introduced the intrinsically-motivated RL. In
sharp contrast to the classic exploration strategies, intrinsically-motivated
RL utilizes the intrinsic learning motivation to provide sustainable
exploration incentives. We carefully classified the existing intrinsic reward
methods and analyzed their practical drawbacks. Moreover, we proposed a new
intrinsic reward method via R\'enyi state entropy maximization, which overcomes
the drawbacks of the preceding methods and provides powerful exploration
incentives. Finally, extensive simulation demonstrated that the proposed module
achieve superior performance with higher efficiency and robustness.
- Abstract(参考訳): 強化学習(rl)は、機械学習の3つの基本的なパラダイムの1つである。
goやstarcraftといった複雑なタスクで印象的なパフォーマンスを発揮しており、スマートな製造と自動運転にますます関わっている。
しかし、rlは常に探索・探索ジレンマに苦しむ。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
古典的な探索戦略とは対照的に、本質的に動機づけられたRLは、本質的な学習モチベーションを利用して、持続可能な探索インセンティブを提供する。
既存の固有報酬法を慎重に分類し,その実用的欠点を分析した。
さらに,従来の手法の欠点を克服し,強力な探索インセンティブを提供するR'enyi状態エントロピー最大化による固有報酬法を提案する。
最後に,提案するモジュールの性能が向上し,高い効率と頑健性が得られた。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Show me the Way: Intrinsic Motivation from Demonstrations [44.87651595571687]
複雑な探索行動は, 異なる動機を反映して, RLエージェントによって学習し, 効率的に利用でき, 徹底的な探索が禁じられる課題を解決することができることを示す。
本稿では,これらのモチベーションを人工エージェントに伝達する実証実験から探索ボーナスを学習することを提案する。
論文 参考訳(メタデータ) (2020-06-23T11:52:53Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。