論文の概要: Multi-Agent Learning of Numerical Methods for Hyperbolic PDEs with
Factored Dec-MDP
- arxiv url: http://arxiv.org/abs/2205.15716v1
- Date: Tue, 31 May 2022 12:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:24:31.615842
- Title: Multi-Agent Learning of Numerical Methods for Hyperbolic PDEs with
Factored Dec-MDP
- Title(参考訳): Dec-MDPによる双曲型PDEの数値解法のマルチエージェント学習
- Authors: Yiwei Fu, Dheeraj S.K. Kapilavai, Elliot Way
- Abstract要約: 報酬の定式化は強化学習(RL)や行動クローニングにつながり,RL定式化の下ではすべてのエージェントに対して均質な政策が学べることを示した。
訓練されたエージェントは局所的な観察にのみ作用するため、マルチエージェントシステムは双曲型PDEの一般的な数値法として使用できる。
- 参考スコア(独自算出の注目度): 2.62980689119077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factored decentralized Markov decision process (Dec-MDP) is a framework for
modeling sequential decision making problems in multi-agent systems. In this
paper, we formalize the learning of numerical methods for hyperbolic partial
differential equations (PDEs), specifically the Weighted Essentially
Non-Oscillatory (WENO) scheme, as a factored Dec-MDP problem. We show that
different reward formulations lead to either reinforcement learning (RL) or
behavior cloning, and a homogeneous policy could be learned for all agents
under the RL formulation with a policy gradient algorithm. Because the trained
agents only act on their local observations, the multi-agent system can be used
as a general numerical method for hyperbolic PDEs and generalize to different
spatial discretizations, episode lengths, dimensions, and even equation types.
- Abstract(参考訳): factored decentralized markov decision process (dec-mdp) はマルチエージェントシステムにおける逐次意思決定問題のモデル化のためのフレームワークである。
本稿では,双曲型偏微分方程式(PDE)の数値解法,特に重み付き基本非振動(WENO)スキームの学習をDec-MDP問題として定式化する。
報酬の定式化は強化学習 (RL) や行動クローニングにつながり, 政策勾配アルゴリズムを用いてRLの定式化の下で全てのエージェントに対して均質なポリシーを学習できることを示した。
訓練されたエージェントは局所的な観測にのみ作用するため、マルチエージェントシステムは双曲型pdesの一般的な数値解法として使われ、異なる空間的離散化、エピソード長、次元、さらには方程式型に一般化することができる。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - Self-Supervised Learning with Lie Symmetries for Partial Differential
Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。
我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。
提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文 参考訳(メタデータ) (2023-07-11T16:52:22Z) - Learning Neural PDE Solvers with Parameter-Guided Channel Attention [17.004380150146268]
天気予報、分子動力学、逆設計といった応用領域では、MLベースの代理モデルがますます使われている。
本稿では,ニューラルサロゲートモデルのためのチャネル注意埋め込み(CAPE)コンポーネントと,シンプルで効果的なカリキュラム学習戦略を提案する。
CAPEモジュールは、未知のPDEパラメータに適応できるように、ニューラルPDEソルバと組み合わせることができる。
論文 参考訳(メタデータ) (2023-04-27T12:05:34Z) - A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T23:52:48Z) - Pseudo-Spherical Contrastive Divergence [119.28384561517292]
エネルギーベースモデルの最大学習確率を一般化するために,擬球面コントラスト分散(PS-CD)を提案する。
PS-CDは難解な分割関数を避け、学習目的の一般化されたファミリーを提供する。
論文 参考訳(メタデータ) (2021-11-01T09:17:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - One-shot learning for solution operators of partial differential equations [3.559034814756831]
データから偏微分方程式(PDE)で表される物理系の方程式を学習し、解くことは、科学と工学の様々な分野において中心的な課題である。
従来のPDEの数値解法は複雑なシステムでは計算コストがかかり、物理系の完全なPDEが必要となる。
本稿では,1つのPDEソリューション,すなわちワンショット学習のみを必要とする,最初のソリューション演算子学習法を提案する。
論文 参考訳(メタデータ) (2021-04-06T17:35:10Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。