論文の概要: MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.00195v1
- Date: Sat, 30 May 2020 06:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 17:34:20.746008
- Title: MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning
- Title(参考訳): MM-KTD:強化学習のための複数モデルカルマン時間差
- Authors: Parvin Malekzadeh, Mohammad Salimibeni, Arash Mohammadi, Akbar Assa,
and Konstantinos N. Plataniotis
- Abstract要約: 本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
- 参考スコア(独自算出の注目度): 36.14516028564416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been an increasing surge of interest on development of advanced
Reinforcement Learning (RL) systems as intelligent approaches to learn optimal
control policies directly from smart agents' interactions with the environment.
Objectives: In a model-free RL method with continuous state-space, typically,
the value function of the states needs to be approximated. In this regard, Deep
Neural Networks (DNNs) provide an attractive modeling mechanism to approximate
the value function using sample transitions. DNN-based solutions, however,
suffer from high sensitivity to parameter selection, are prone to overfitting,
and are not very sample efficient. A Kalman-based methodology, on the other
hand, could be used as an efficient alternative. Such an approach, however,
commonly requires a-priori information about the system (such as noise
statistics) to perform efficiently. The main objective of this paper is to
address this issue. Methods: As a remedy to the aforementioned problems, this
paper proposes an innovative Multiple Model Kalman Temporal Difference (MM-KTD)
framework, which adapts the parameters of the filter using the observed states
and rewards. Moreover, an active learning method is proposed to enhance the
sampling efficiency of the system. More specifically, the estimated uncertainty
of the value functions are exploited to form the behaviour policy leading to
more visits to less certain values, therefore, improving the overall learning
sample efficiency. As a result, the proposed MM-KTD framework can learn the
optimal policy with significantly reduced number of samples as compared to its
DNN-based counterparts. Results: To evaluate performance of the proposed MM-KTD
framework, we have performed a comprehensive set of experiments based on three
RL benchmarks. Experimental results show superiority of the MM-KTD framework in
comparison to its state-of-the-art counterparts.
- Abstract(参考訳): 知的アプローチとしての高度強化学習(RL)システムの開発への関心が高まっており、スマートエージェントと環境との相互作用から直接最適な制御ポリシーを学習している。
目的: 連続状態空間を持つモデルフリーなRL法では、通常、状態の値関数を近似する必要がある。
この点において、Deep Neural Networks (DNN) はサンプル遷移を用いて値関数を近似する魅力的なモデリングメカニズムを提供する。
しかし、DNNベースのソリューションは、高い感度とパラメータ選択に悩まされ、過剰適合する傾向があり、あまりサンプル効率が良くない。
一方、カルマンに基づく方法論は効率的な代替手段として利用することができる。
しかし、このようなアプローチでは、通常、システムに関する情報(ノイズ統計など)を効率的に実行する必要がある。
本論文の主な目的は,この問題に対処することである。
方法: 上記の問題に対する対策として, 観測された状態と報酬を用いてフィルタのパラメータを適応する, 革新的なマルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
さらに,システムのサンプリング効率を高めるために,能動的学習法を提案する。
より具体的には、評価された値関数の不確実性を利用して振る舞いポリシーを構築し、より少ない値の訪問につながるため、全体的な学習サンプル効率が向上する。
その結果,提案するmm-ktdフレームワークは,dnnベースに比べてサンプル数を大幅に削減した最適方針を学習することができる。
結果:提案するMM-KTDフレームワークの性能を評価するため,3つのRLベンチマークに基づく総合的な実験を行った。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
関連論文リスト
- Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。
MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。
提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Value Summation: A Novel Scoring Function for MPC-based Model-based
Reinforcement Learning [4.473327661758546]
本稿では,MPCを用いた強化学習手法の計画モジュールのための新しいスコアリング機能を提案する。
提案手法は,値の割引和を用いた既存のMPCベースのMBRL手法の学習効率を向上させる。
提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T20:52:39Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。