論文の概要: Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale
Inversion Problem
- arxiv url: http://arxiv.org/abs/2011.08954v1
- Date: Tue, 17 Nov 2020 21:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 18:03:03.441220
- Title: Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale
Inversion Problem
- Title(参考訳): マルチエージェント強化学習によるマルチスケールインバージョン問題に対するmcmcの高速化
- Authors: Eric Chung, Yalchin Efendiev, Wing Tat Leung, Sai-Mang Pun, Zecheng
Zhang
- Abstract要約: モンテカルロマルコフ連鎖(MCMC)サンプリングアルゴリズムを高速化するために,マルチエージェントアクタ・クリティック強化学習(RL)アルゴリズムを提案する。
エージェントのポリシー(アクター)はMCMCのステップで提案を生成するために使用され、批評家は中央集権的であり、長期的な報酬を見積もる責任がある。
実験の結果,提案手法はサンプリングプロセスを大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a multi-agent actor-critic reinforcement learning
(RL) algorithm to accelerate the multi-level Monte Carlo Markov Chain (MCMC)
sampling algorithms. The policies (actors) of the agents are used to generate
the proposal in the MCMC steps; and the critic, which is centralized, is in
charge of estimating the long term reward. We verify our proposed algorithm by
solving an inverse problem with multiple scales. There are several difficulties
in the implementation of this problem by using traditional MCMC sampling.
Firstly, the computation of the posterior distribution involves evaluating the
forward solver, which is very time consuming for a problem with heterogeneous.
We hence propose to use the multi-level algorithm. More precisely, we use the
generalized multiscale finite element method (GMsFEM) as the forward solver in
evaluating a posterior distribution in the multi-level rejection procedure.
Secondly, it is hard to find a function which can generate samplings which are
meaningful. To solve this issue, we learn an RL policy as the proposal
generator. Our experiments show that the proposed method significantly improves
the sampling process
- Abstract(参考訳): 本研究では,多レベルモンテカルロマルコフ連鎖(MCMC)サンプリングアルゴリズムを高速化するために,マルチエージェントアクタ-クリティック強化学習(RL)アルゴリズムを提案する。
エージェントのポリシー(アクター)はMCMCのステップで提案を生成するために使用され、批評家は中央集権的であり、長期的な報酬を見積もる責任がある。
複数のスケールで逆問題を解くことにより,提案アルゴリズムの検証を行う。
従来のMCMCサンプリングを用いることで,この問題の実装にはいくつかの困難がある。
第一に、後続分布の計算は前方解法の評価を伴うが、これは不均一な問題に非常に時間がかかる。
そこで我々は,マルチレベルアルゴリズムを提案する。
より正確には、多値拒絶法における後方分布の評価において、一般化多スケール有限要素法(gmsfem)を前方解法として用いる。
第二に、意味のあるサンプリングを生成できる関数を見つけることは困難である。
この問題を解決するため,提案ジェネレータとしてRLポリシーを学習する。
提案手法がサンプリングプロセスを大幅に改善することを示す。
関連論文リスト
- Why do we regularise in every iteration for imaging inverse problems? [0.29792392019703945]
正則化は、画像逆問題を解決する反復法で一般的に用いられる。
ProxSkipは正規化ステップをランダムにスキップし、収束に影響を与えることなく反復アルゴリズムの計算時間を短縮する。
論文 参考訳(メタデータ) (2024-11-01T15:50:05Z) - Think Twice Before You Act: Improving Inverse Problem Solving With MCMC [40.5682961122897]
事前学習した拡散モデルを用いて逆問題を解決するためにtextbfDiffusion textbfPosterior textbfDPMC(textbfDPMC)を提案する。
提案アルゴリズムは,ほぼすべてのタスクにおいてDPSよりも性能が優れており,既存手法と競合する。
論文 参考訳(メタデータ) (2024-09-13T06:10:54Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。
計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。
本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文 参考訳(メタデータ) (2020-02-23T22:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。