論文の概要: A Survey of Reinforcement Learning Techniques: Strategies, Recent
Development, and Future Directions
- arxiv url: http://arxiv.org/abs/2001.06921v2
- Date: Mon, 27 Jan 2020 14:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 10:11:52.365219
- Title: A Survey of Reinforcement Learning Techniques: Strategies, Recent
Development, and Future Directions
- Title(参考訳): 強化学習技術に関する調査研究 : 戦略,最近の展開,今後の方向性
- Authors: Amit Kumar Mondal
- Abstract要約: 強化学習は任意の環境で行動を取るシステムに影響を与える。
本稿では,課題,最近の最先端技術の発展,今後の方向性など,さまざまな側面に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is one of the core components in designing an
artificial intelligent system emphasizing real-time response. Reinforcement
learning influences the system to take actions within an arbitrary environment
either having previous knowledge about the environment model or not. In this
paper, we present a comprehensive study on Reinforcement Learning focusing on
various dimensions including challenges, the recent development of different
state-of-the-art techniques, and future directions. The fundamental objective
of this paper is to provide a framework for the presentation of available
methods of reinforcement learning that is informative enough and simple to
follow for the new researchers and academics in this domain considering the
latest concerns. First, we illustrated the core techniques of reinforcement
learning in an easily understandable and comparable way. Finally, we analyzed
and depicted the recent developments in reinforcement learning approaches. My
analysis pointed out that most of the models focused on tuning policy values
rather than tuning other things in a particular state of reasoning.
- Abstract(参考訳): 強化学習は、リアルタイム応答を強調する人工知能システムの設計における中核的な要素の1つである。
強化学習は、環境モデルに関する以前の知識があるかどうかに関わらず、任意の環境内で行動を取るシステムに影響を与える。
本稿では,課題,最新の最先端技術の発展,今後の方向性など,様々な側面に着目した強化学習に関する総合的研究を行う。
本論文の基本的な目的は,本分野の新しい研究者や研究者に対して,最新の懸念を考慮し,十分に情報的かつ容易に追従できる強化学習手法の提示のためのフレームワークを提供することである。
まず,強化学習の中核的手法を,容易に理解し,比較可能な方法で紹介した。
最後に,強化学習手法の最近の展開を分析し,考察した。
私の分析では、ほとんどのモデルは特定の推論状態で他のことをチューニングするのではなく、ポリシー値のチューニングに重点を置いています。
関連論文リスト
- Examining Changes in Internal Representations of Continual Learning Models Through Tensor Decomposition [5.01338577379149]
連続学習(CL)は、逐次学習にまたがる過去の知識の統合を目的としたいくつかの手法の開発を加速させた。
CLモデルのための表現に基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T07:52:44Z) - Towards a General Framework for Continual Learning with Pre-training [55.88910947643436]
本稿では,事前学習を用いた逐次到着タスクの連続学習のための一般的な枠組みを提案する。
我々はその目的を,タスク内予測,タスク同一性推論,タスク適応予測という3つの階層的構成要素に分解する。
本稿では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T02:03:38Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Derivative-Free Reinforcement Learning: A Review [11.568151821073952]
強化学習とは、未知の環境で最高のシーケンシャルな決定を行うエージェントモデルを学習することである。
一方、微分自由最適化は洗練された問題を解くことができる。
本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を概説する。
論文 参考訳(メタデータ) (2021-02-10T19:29:22Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。