論文の概要: Multifidelity Reinforcement Learning with Control Variates
- arxiv url: http://arxiv.org/abs/2206.05165v1
- Date: Fri, 10 Jun 2022 15:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:31:37.289992
- Title: Multifidelity Reinforcement Learning with Control Variates
- Title(参考訳): 制御変数を用いた多元性強化学習
- Authors: Sami Khairy, Prasanna Balaprakash
- Abstract要約: 多くの計算科学や工学の応用において、与えられた入力に対応する興味あるシステムの出力は、異なるコストで異なるレベルの忠実度でクエリすることができる。
本研究では、与えられた制御タスクに対して、異なるレベルの忠実度を持つ複数の環境が存在する場合の強化学習問題について検討する。
状態-作用値関数の推定におけるばらつきを低減するために,低忠実度と高忠実度との相互相関を利用した多忠実度推定器を提案する。
- 参考スコア(独自算出の注目度): 3.2895195535353317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many computational science and engineering applications, the output of a
system of interest corresponding to a given input can be queried at different
levels of fidelity with different costs. Typically, low-fidelity data is cheap
and abundant, while high-fidelity data is expensive and scarce. In this work we
study the reinforcement learning (RL) problem in the presence of multiple
environments with different levels of fidelity for a given control task. We
focus on improving the RL agent's performance with multifidelity data.
Specifically, a multifidelity estimator that exploits the cross-correlations
between the low- and high-fidelity returns is proposed to reduce the variance
in the estimation of the state-action value function. The proposed estimator,
which is based on the method of control variates, is used to design a
multifidelity Monte Carlo RL (MFMCRL) algorithm that improves the learning of
the agent in the high-fidelity environment. The impacts of variance reduction
on policy evaluation and policy improvement are theoretically analyzed by using
probability bounds. Our theoretical analysis and numerical experiments
demonstrate that for a finite budget of high-fidelity data samples, our
proposed MFMCRL agent attains superior performance compared with that of a
standard RL agent that uses only the high-fidelity environment data for
learning the optimal policy.
- Abstract(参考訳): 多くの計算科学や工学の応用において、与えられた入力に対応する関心のシステムの出力は異なるレベルの忠実度で異なるコストで照会することができる。
通常、低忠実度データは安価で豊富であるが、高忠実度データは高価で不足している。
本研究では,与えられた制御タスクに対して異なるレベルの忠実度を有する複数の環境が存在する場合の強化学習(rl)問題について検討する。
我々は,マルチフィデリティデータを用いたrlエージェントの性能向上に注目する。
具体的には、状態動作値関数の推定のばらつきを減少させるために、低忠実度と高忠実度リターンの相互相関を利用するマルチ忠実度推定器を提案する。
提案手法は多元性モンテカルロrl(mfmcrl)アルゴリズムの設計に用いられ,高忠実性環境におけるエージェントの学習を改善する。
変動低減が政策評価および政策改善に与える影響を確率境界を用いて理論的に分析する。
理論解析と数値実験により,高忠実度データサンプルの有限予算において,提案するmfmcrlエージェントは,高忠実度環境データのみを用いた標準rlエージェントよりも優れた性能が得られることを示した。
関連論文リスト
- Multifidelity linear regression for scientific machine learning from
scarce data [0.0]
本稿では,科学機械学習のための多要素学習手法を提案する。
様々な忠実さとコストのデータが利用できる科学的な文脈を利用する。
本研究では,高忠実度データを学習した学習モデルが,高忠実度データのみを学習した標準モデルよりも,高忠実度データを訓練した学習モデルよりも低次モデルの分散を実現することを示す。
論文 参考訳(メタデータ) (2024-03-13T15:40:17Z) - Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [20.76939585108783]
マルチフィデリティ・サロゲートモデリングは,複数の情報源からのデータを組み合わせることで,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
我々は,MFRNP(Multi-fidelity Residual Neural Processs)が偏微分方程式の学習や実世界の気候モデリングのタスクにおいて,現状を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-02-29T04:40:25Z) - Mitigating the Alignment Tax of RLHF [77.7879015461373]
人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。
本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Balancing Value Underestimation and Overestimation with Realistic
Actor-Critic [6.205681604290727]
本稿では,新しいモデルフリーアルゴリズムであるRealistic Actor-Critic(RAC)を提案する。
RACはUniversal Value Function Approximator (UVFA)を使用して、同じニューラルネットワークを持つポリシーファミリを同時に学習する。
我々は,MuJoCoベンチマークでRACを評価し,最も困難なHumanoid環境において,SACと比較して10倍のサンプル効率と25%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-10-19T03:35:01Z) - Adaptive Reliability Analysis for Multi-fidelity Models using a
Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。
提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。
AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文 参考訳(メタデータ) (2021-09-21T14:42:58Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。