Fugu-MT 論文翻訳(概要): Multifidelity Reinforcement Learning with Control Variates

論文の概要: Multifidelity Reinforcement Learning with Control Variates

arxiv url: http://arxiv.org/abs/2206.05165v1
Date: Fri, 10 Jun 2022 15:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-13 15:31:37.289992
Title: Multifidelity Reinforcement Learning with Control Variates
Title（参考訳）: 制御変数を用いた多元性強化学習
Authors: Sami Khairy, Prasanna Balaprakash
Abstract要約: 多くの計算科学や工学の応用において、与えられた入力に対応する興味あるシステムの出力は、異なるコストで異なるレベルの忠実度でクエリすることができる。本研究では、与えられた制御タスクに対して、異なるレベルの忠実度を持つ複数の環境が存在する場合の強化学習問題について検討する。状態-作用値関数の推定におけるばらつきを低減するために,低忠実度と高忠実度との相互相関を利用した多忠実度推定器を提案する。
参考スコア（独自算出の注目度）: 3.2895195535353317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many computational science and engineering applications, the output of a system of interest corresponding to a given input can be queried at different levels of fidelity with different costs. Typically, low-fidelity data is cheap and abundant, while high-fidelity data is expensive and scarce. In this work we study the reinforcement learning (RL) problem in the presence of multiple environments with different levels of fidelity for a given control task. We focus on improving the RL agent's performance with multifidelity data. Specifically, a multifidelity estimator that exploits the cross-correlations between the low- and high-fidelity returns is proposed to reduce the variance in the estimation of the state-action value function. The proposed estimator, which is based on the method of control variates, is used to design a multifidelity Monte Carlo RL (MFMCRL) algorithm that improves the learning of the agent in the high-fidelity environment. The impacts of variance reduction on policy evaluation and policy improvement are theoretically analyzed by using probability bounds. Our theoretical analysis and numerical experiments demonstrate that for a finite budget of high-fidelity data samples, our proposed MFMCRL agent attains superior performance compared with that of a standard RL agent that uses only the high-fidelity environment data for learning the optimal policy.
Abstract（参考訳）: 多くの計算科学や工学の応用において、与えられた入力に対応する関心のシステムの出力は異なるレベルの忠実度で異なるコストで照会することができる。通常、低忠実度データは安価で豊富であるが、高忠実度データは高価で不足している。本研究では,与えられた制御タスクに対して異なるレベルの忠実度を有する複数の環境が存在する場合の強化学習(rl)問題について検討する。我々は,マルチフィデリティデータを用いたrlエージェントの性能向上に注目する。具体的には、状態動作値関数の推定のばらつきを減少させるために、低忠実度と高忠実度リターンの相互相関を利用するマルチ忠実度推定器を提案する。提案手法は多元性モンテカルロrl(mfmcrl)アルゴリズムの設計に用いられ,高忠実性環境におけるエージェントの学習を改善する。変動低減が政策評価および政策改善に与える影響を確率境界を用いて理論的に分析する。理論解析と数値実験により,高忠実度データサンプルの有限予算において,提案するmfmcrlエージェントは,高忠実度環境データのみを用いた標準rlエージェントよりも優れた性能が得られることを示した。

関連論文リスト

Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization [0.0]
多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、様々な精度とコストの分析モデルを統合することにより、計算資源を効率的に活用する。本研究では,複数の不均一な非階層的低忠実度モデルを高忠実度モデルとともに動的に活用する適応型多忠実RLフレームワークを提案する。提案手法の有効性はオクトコプター設計最適化問題において実証され,2つの低忠実度モデルと高忠実度シミュレータを用いた。
論文参考訳（メタデータ） (2025-03-23T22:29:08Z)
Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。我々は、中程度のレベルの情報共有でも、環境固有のエラーを著しく軽減できることを示した。
論文参考訳（メタデータ） (2025-03-21T18:06:28Z)
Multi-Fidelity Policy Gradient Algorithms [23.62115512789292]
強化学習アルゴリズムには大量のデータが必要です低忠実度シミュレータは、直接sim-to-real転送するには大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。我々は、ターゲット環境から少量のデータと大量の低忠実度シミュレーションデータとを混合するRLフレームワークである多忠実度ポリシー勾配(Gs)を提案する。
論文参考訳（メタデータ） (2025-03-07T18:58:23Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Multifidelity linear regression for scientific machine learning from scarce data [0.0]
本稿では,線形回帰を用いた科学機械学習のための多面的学習手法を提案する。我々は,提案手法の精度を保証し,高忠実度データの少ないロバスト性を向上する新しい推定器のバイアスと分散分析を行う。
論文参考訳（メタデータ） (2024-03-13T15:40:17Z)
Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [19.60087366873302]
マルチフィデリティ・サロゲートモデリングは,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。本稿では,MFRNP(Multi-fidelity Residual Neural Processs)を提案する。
論文参考訳（メタデータ） (2024-02-29T04:40:25Z)
Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2022-02-22T20:44:04Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Balancing Value Underestimation and Overestimation with Realistic Actor-Critic [6.205681604290727]
本稿では,新しいモデルフリーアルゴリズムであるRealistic Actor-Critic(RAC)を提案する。 RACはUniversal Value Function Approximator (UVFA)を使用して、同じニューラルネットワークを持つポリシーファミリを同時に学習する。我々は,MuJoCoベンチマークでRACを評価し,最も困難なHumanoid環境において,SACと比較して10倍のサンプル効率と25%の性能向上を実現した。
論文参考訳（メタデータ） (2021-10-19T03:35:01Z)
Adaptive Reliability Analysis for Multi-fidelity Models using a Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。 AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文参考訳（メタデータ） (2021-09-21T14:42:58Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。