論文の概要: Backpropagation through Time and Space: Learning Numerical Methods with
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.08937v1
- Date: Wed, 16 Mar 2022 20:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:50:41.186740
- Title: Backpropagation through Time and Space: Learning Numerical Methods with
Multi-Agent Reinforcement Learning
- Title(参考訳): 時間と空間を通したバックプロパゲーション:マルチエージェント強化学習による数値手法の学習
- Authors: Elliot Way, Dheeraj S.K. Kapilivai, Yiwei Fu, Lei Yu
- Abstract要約: 強化学習(RL)における偏微分方程式に基づく数値スキームを部分観測可能なマルコフゲーム(OMG)として扱う。
数値解法と同様に、エージェントは各離散位置において、効率的な一般化可能な学習のための計算空間として機能する。
局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。
- 参考スコア(独自算出の注目度): 6.598324641949299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Backpropagation Through Time and Space (BPTTS), a method for
training a recurrent spatio-temporal neural network, that is used in a
homogeneous multi-agent reinforcement learning (MARL) setting to learn
numerical methods for hyperbolic conservation laws. We treat the numerical
schemes underlying partial differential equations (PDEs) as a Partially
Observable Markov Game (POMG) in Reinforcement Learning (RL). Similar to
numerical solvers, our agent acts at each discrete location of a computational
space for efficient and generalizable learning. To learn higher-order spatial
methods by acting on local states, the agent must discern how its actions at a
given spatiotemporal location affect the future evolution of the state. The
manifestation of this non-stationarity is addressed by BPTTS, which allows for
the flow of gradients across both space and time. The learned numerical
policies are comparable to the SOTA numerics in two settings, the Burgers'
Equation and the Euler Equations, and generalize well to other simulation
set-ups.
- Abstract(参考訳): 本稿では,均質なマルチエージェント強化学習 (marl) において用いられる再帰的時空間ニューラルネットワークの学習法であるtime and space (bptts) を導入し,双曲的保存則の数値解法を学習する。
本稿では,偏微分方程式(pdes)に基づく数値スキームを強化学習(rl)における部分可観測マルコフゲーム(pomg)として扱う。
数値解法と同様に,エージェントは計算空間の各離散位置において効率的かつ一般化された学習を行う。
局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時空間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。
この非定常性の顕在化はbpttsによって対処され、空間と時間の両方で勾配が流れることができる。
学習された数値ポリシーは、バーガーズ方程式とオイラー方程式という2つの設定のSOTA数値に匹敵し、他のシミュレーションセットとよく似たものである。
関連論文リスト
- TimewarpVAE: Simultaneous Time-Warping and Representation Learning of Trajectories [15.28090738928877]
TimewarpVAEは、空間変動の時間変化と潜時要因を同時に学習する多様体学習アルゴリズムである。
本稿では,手書きおよびフォーク操作データセットにおける空間変動の適切な時間アライメントと有意義な表現をアルゴリズムがどのように学習するかを示す。
論文 参考訳(メタデータ) (2023-10-24T17:43:16Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Locally Regularized Neural Differential Equations: Some Black Boxes Were
Meant to Remain Closed! [3.222802562733787]
ニューラル微分方程式のような暗黙の層深層学習技術は重要なモデリングフレームワークとなっている。
パフォーマンスとトレーニング時間をトレードオフする2つのサンプリング戦略を開発します。
本手法は,関数評価を0.556-0.733xに削減し,予測を1.3-2xに高速化する。
論文 参考訳(メタデータ) (2023-03-03T23:31:15Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Opening the Blackbox: Accelerating Neural Differential Equations by
Regularizing Internal Solver Heuristics [0.0]
本論文では,適応微分方程式ソルバの内部コストと離散感性を組み合わせてトレーニング過程を導く新しい正規化手法について述べる。
このアプローチは微分方程式解法アルゴリズムの背後にあるブラックボックスの数値解析を開放し、その局所誤差推定と剛性を安価で正確なコスト推定として利用する。
当社のアプローチが予測時間を半減させる方法を示し、これがトレーニング時間を桁違いに向上させる方法を示します。
論文 参考訳(メタデータ) (2021-05-09T12:03:03Z) - Deep learning approaches to surrogates for solving the diffusion
equation for mechanistic real-world simulations [0.0]
医学的、生物学的、物理的、工学的なモデルでは、偏微分方程式(PDE)の数値解は、過激にシミュレーションを遅くすることができる。
このような複雑な数値問題に対する近似解を提供するために訓練されたニューラルネットワークである機械学習のサロゲートは、直接計算に比べて数桁のスピードアップを提供することが多い。
畳み込みニューラルネットワークを用いて拡散方程式の定常解を近似する。
論文 参考訳(メタデータ) (2021-02-10T16:15:17Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。