論文の概要: Reinforcement Learning with an Abrupt Model Change
- arxiv url: http://arxiv.org/abs/2304.11460v1
- Date: Sat, 22 Apr 2023 18:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:21:04.800887
- Title: Reinforcement Learning with an Abrupt Model Change
- Title(参考訳): 急激なモデル変更による強化学習
- Authors: Wuxia Chen, Taposh Banerjee, Jemin George, and Carl Busart
- Abstract要約: 強化学習の問題は、環境やモデルが変化するところにあると考えられる。
エージェントがこのような問題に適応して最適な長期割引報酬を実現するアルゴリズムが提案されている。
アルゴリズムはモデルフリーであり、環境と相互作用することで最適なポリシーを学習する。
- 参考スコア(独自算出の注目度): 15.101940747707705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of reinforcement learning is considered where the environment or
the model undergoes a change. An algorithm is proposed that an agent can apply
in such a problem to achieve the optimal long-time discounted reward. The
algorithm is model-free and learns the optimal policy by interacting with the
environment. It is shown that the proposed algorithm has strong optimality
properties. The effectiveness of the algorithm is also demonstrated using
simulation results. The proposed algorithm exploits a fundamental
reward-detection trade-off present in these problems and uses a quickest change
detection algorithm to detect the model change. Recommendations are provided
for faster detection of model changes and for smart initialization strategies.
- Abstract(参考訳): 強化学習の問題は、環境やモデルが変化するところにあると考えられる。
このような問題に対してエージェントが最適な長期割引報酬を達成するために適用できるアルゴリズムを提案する。
アルゴリズムはモデルフリーであり、環境と相互作用することで最適なポリシーを学ぶ。
提案アルゴリズムは, 高い最適性特性を有することを示す。
また,シミュレーション結果を用いてアルゴリズムの有効性を示す。
提案手法は,これらの問題に存在する報酬検出の基本的なトレードオフを活用し,最も迅速な変化検出アルゴリズムを用いてモデル変化を検出する。
モデル変更の迅速な検出とスマート初期化戦略のための勧告が提供されている。
関連論文リスト
- Deep Reinforcement Learning for Dynamic Algorithm Selection: A
Proof-of-Principle Study on Differential Evolution [27.607740475924448]
本稿では,この課題を実現するための強化学習に基づく動的アルゴリズム選択フレームワークを提案する。
我々は、最適な動作を推測し、アルゴリズムの選択を確実にするために、洗練されたディープニューラルネットワークモデルを用いる。
基礎研究として、この枠組みを微分進化アルゴリズム群に適用する。
論文 参考訳(メタデータ) (2024-03-04T15:40:28Z) - Frog-Snake prey-predation Relationship Optimization (FSRO) : A novel nature-inspired metaheuristic algorithm for feature selection [0.0]
本研究では,Frog-Snake prey-predation Relationship Optimization (FSRO)アルゴリズムを提案する。
カエルとヘビの捕食関係から着想を得て、離散最適化問題に適用した。
提案アルゴリズムは26種類の機械学習データセットを用いて特徴選択に関する計算実験を行う。
論文 参考訳(メタデータ) (2024-02-13T06:39:15Z) - Efficient Training of Physics-Informed Neural Networks with Direct Grid
Refinement Algorithm [0.0]
本研究では,物理インフォームドニューラルネットワーク(PINN)の枠組みにおける残点の適応サンプリングに適したアルゴリズムの開発について述べる。
提案手法は,既存の適応サンプリング手法に固有の制約に対処することにより,計算効率と適応点配置の両方を効果的に保証する直接メッシュ改良手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T07:04:02Z) - Quickest Change Detection for Unnormalized Statistical Models [36.6516991850508]
本稿では,最も高速な変化検出のための古典的累積和(CUSUM)アルゴリズムの新たな変種を開発する。
SCUSUMアルゴリズムは、正規化されていない統計モデルに対する変更検出の応用を可能にする。
論文 参考訳(メタデータ) (2023-02-01T05:27:34Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - High-dimensional Bayesian Optimization Algorithm with Recurrent Neural
Network for Disease Control Models in Time Series [1.9371782627708491]
本稿では,リカレントニューラルネットワークを組み合わせた高次元ベイズ最適化アルゴリズムを提案する。
提案したRNN-BOアルゴリズムは,低次元空間における最適制御問題を解くことができる。
また、RNN層の異なる数の影響や、ソリューションの品質と関連する計算努力のトレードオフに対する訓練のエポックスについても論じる。
論文 参考訳(メタデータ) (2022-01-01T08:40:17Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。