論文の概要: Multifidelity Reinforcement Learning with Control Variates
- arxiv url: http://arxiv.org/abs/2206.05165v1
- Date: Fri, 10 Jun 2022 15:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:31:37.289992
- Title: Multifidelity Reinforcement Learning with Control Variates
- Title(参考訳): 制御変数を用いた多元性強化学習
- Authors: Sami Khairy, Prasanna Balaprakash
- Abstract要約: 多くの計算科学や工学の応用において、与えられた入力に対応する興味あるシステムの出力は、異なるコストで異なるレベルの忠実度でクエリすることができる。
本研究では、与えられた制御タスクに対して、異なるレベルの忠実度を持つ複数の環境が存在する場合の強化学習問題について検討する。
状態-作用値関数の推定におけるばらつきを低減するために,低忠実度と高忠実度との相互相関を利用した多忠実度推定器を提案する。
- 参考スコア(独自算出の注目度): 3.2895195535353317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many computational science and engineering applications, the output of a
system of interest corresponding to a given input can be queried at different
levels of fidelity with different costs. Typically, low-fidelity data is cheap
and abundant, while high-fidelity data is expensive and scarce. In this work we
study the reinforcement learning (RL) problem in the presence of multiple
environments with different levels of fidelity for a given control task. We
focus on improving the RL agent's performance with multifidelity data.
Specifically, a multifidelity estimator that exploits the cross-correlations
between the low- and high-fidelity returns is proposed to reduce the variance
in the estimation of the state-action value function. The proposed estimator,
which is based on the method of control variates, is used to design a
multifidelity Monte Carlo RL (MFMCRL) algorithm that improves the learning of
the agent in the high-fidelity environment. The impacts of variance reduction
on policy evaluation and policy improvement are theoretically analyzed by using
probability bounds. Our theoretical analysis and numerical experiments
demonstrate that for a finite budget of high-fidelity data samples, our
proposed MFMCRL agent attains superior performance compared with that of a
standard RL agent that uses only the high-fidelity environment data for
learning the optimal policy.
- Abstract(参考訳): 多くの計算科学や工学の応用において、与えられた入力に対応する関心のシステムの出力は異なるレベルの忠実度で異なるコストで照会することができる。
通常、低忠実度データは安価で豊富であるが、高忠実度データは高価で不足している。
本研究では,与えられた制御タスクに対して異なるレベルの忠実度を有する複数の環境が存在する場合の強化学習(rl)問題について検討する。
我々は,マルチフィデリティデータを用いたrlエージェントの性能向上に注目する。
具体的には、状態動作値関数の推定のばらつきを減少させるために、低忠実度と高忠実度リターンの相互相関を利用するマルチ忠実度推定器を提案する。
提案手法は多元性モンテカルロrl(mfmcrl)アルゴリズムの設計に用いられ,高忠実性環境におけるエージェントの学習を改善する。
変動低減が政策評価および政策改善に与える影響を確率境界を用いて理論的に分析する。
理論解析と数値実験により,高忠実度データサンプルの有限予算において,提案するmfmcrlエージェントは,高忠実度環境データのみを用いた標準rlエージェントよりも優れた性能が得られることを示した。
関連論文リスト
- Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Multifidelity linear regression for scientific machine learning from scarce data [0.0]
本稿では,線形回帰を用いた科学機械学習のための多面的学習手法を提案する。
我々は,提案手法の精度を保証し,高忠実度データの少ないロバスト性を向上する新しい推定器のバイアスと分散分析を行う。
論文 参考訳(メタデータ) (2024-03-13T15:40:17Z) - Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [19.60087366873302]
マルチフィデリティ・サロゲートモデリングは,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
本稿では,MFRNP(Multi-fidelity Residual Neural Processs)を提案する。
論文 参考訳(メタデータ) (2024-02-29T04:40:25Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Balancing Value Underestimation and Overestimation with Realistic
Actor-Critic [6.205681604290727]
本稿では,新しいモデルフリーアルゴリズムであるRealistic Actor-Critic(RAC)を提案する。
RACはUniversal Value Function Approximator (UVFA)を使用して、同じニューラルネットワークを持つポリシーファミリを同時に学習する。
我々は,MuJoCoベンチマークでRACを評価し,最も困難なHumanoid環境において,SACと比較して10倍のサンプル効率と25%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-10-19T03:35:01Z) - Adaptive Reliability Analysis for Multi-fidelity Models using a
Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。
提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。
AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文 参考訳(メタデータ) (2021-09-21T14:42:58Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。