論文の概要: A new soft computing method for integration of expert's knowledge in
reinforcement learn-ing problems
- arxiv url: http://arxiv.org/abs/2106.07088v1
- Date: Sun, 13 Jun 2021 20:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:43:18.053813
- Title: A new soft computing method for integration of expert's knowledge in
reinforcement learn-ing problems
- Title(参考訳): 強化学習問題におけるエキスパート知識の統合のための新しいソフトコンピューティング手法
- Authors: Mohsen Annabestani, Ali Abedi, Mohammad Reza Nematollahi, and Mohammad
Bagher Naghibi Sis-tani
- Abstract要約: 提案したファジィ非線形写像は、次のステップで選択される確率に設定されたアクションの各メンバをアサインする。
エージェントの欲張り行動を決定するアクション選択ポリシーを制御するために、ユーザチューニング可能なパラメータを導入する。
シミュレーションの結果,提案手法による強化学習にファジィ論理を組み込むことで,学習アルゴリズムの収束率を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 1.11412540857944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel fuzzy action selection method to leverage human
knowledge in reinforcement learning problems. Based on the estimates of the
most current action-state values, the proposed fuzzy nonlinear mapping as-signs
each member of the action set to its probability of being chosen in the next
step. A user tunable parameter is introduced to control the action selection
policy, which determines the agent's greedy behavior throughout the learning
process. This parameter resembles the role of the temperature parameter in the
softmax action selection policy, but its tuning process can be more
knowledge-oriented since this parameter reflects the human knowledge into the
learning agent by making modifications in the fuzzy rule base. Simulation
results indicate that including fuzzy logic within the reinforcement learning
in the proposed manner improves the learning algorithm's convergence rate, and
provides superior performance.
- Abstract(参考訳): 本稿では,強化学習問題における人間の知識を活用するファジィ行動選択法を提案する。
最も現在のアクション状態の値の推定に基づいて、提案されたファジィ非線形マッピングは、アクションの各メンバが次のステップで選択される確率にサインする。
ユーザの調整可能なパラメータを導入し、学習プロセスを通じてエージェントの欲望行動を決定するアクション選択ポリシを制御する。
このパラメータは、softmaxアクション選択ポリシーにおける温度パラメータの役割に似ているが、このパラメータはファジィルールベースで修正することで人間の知識を学習エージェントに反映するため、そのチューニングプロセスはより知識指向になる。
シミュレーションの結果,強化学習にファジィ論理を組み込むことにより,学習アルゴリズムの収束率が向上し,優れた性能が得られることがわかった。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Adaptive Robust Learning using Latent Bernoulli Variables [50.223140145910904]
破損したトレーニングセットから学習するための適応的なアプローチを提案する。
我々は,潜伏したベルヌーイ変数を持つ崩壊した非破壊標本を同定した。
結果の問題は変分推論によって解決される。
論文 参考訳(メタデータ) (2023-12-01T13:50:15Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - Episodic Policy Gradient Training [43.62408764384791]
エピソード政策グラディエントトレーニング(EPGT)
本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
論文 参考訳(メタデータ) (2021-12-03T11:15:32Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。