論文の概要: Ex$^2$MCMC: Sampling through Exploration Exploitation
- arxiv url: http://arxiv.org/abs/2111.02702v1
- Date: Thu, 4 Nov 2021 09:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 12:37:00.768666
- Title: Ex$^2$MCMC: Sampling through Exploration Exploitation
- Title(参考訳): Ex$2$MCMC:Exploration Exploitationによるサンプリング
- Authors: Evgeny Lagutin, Daniil Selikhanovych, Achille Thin, Sergey Samsonov,
Alexey Naumov, Denis Belomestny, Maxim Panov, Eric Moulines
- Abstract要約: 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズムを開発した。
また,正規化フローを用いてグローバルな動きの分布を学習する適応型スキームを開発した。
これらのアルゴリズムは、エネルギーベースモデルとしてGANをサンプリングする品質を改善する。
- 参考スコア(独自算出の注目度): 8.986856229675109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an Explore-Exploit Markov chain Monte Carlo algorithm
($\operatorname{Ex^2MCMC}$) that combines multiple global proposals and local
moves. The proposed method is massively parallelizable and extremely
computationally efficient. We prove $V$-uniform geometric ergodicity of
$\operatorname{Ex^2MCMC}$ under realistic conditions and compute explicit
bounds on the mixing rate showing the improvement brought by the multiple
global moves. We show that $\operatorname{Ex^2MCMC}$ allows fine-tuning of
exploitation (local moves) and exploration (global moves) via a novel approach
to proposing dependent global moves. Finally, we develop an adaptive scheme,
$\operatorname{FlEx^2MCMC}$, that learns the distribution of global moves using
normalizing flows. We illustrate the efficiency of $\operatorname{Ex^2MCMC}$
and its adaptive versions on many classical sampling benchmarks. We also show
that these algorithms improve the quality of sampling GANs as energy-based
models.
- Abstract(参考訳): 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズム(\operatorname{Ex^2MCMC}$)を開発した。
提案手法は並列化可能であり,計算効率が高い。
v$-uniform geometric ergodicity of $\operatorname{ex^2mcmc}$ を現実の条件下で証明し、複数の大域的な動きによってもたらされる改善を示す混合率の明示的な境界を計算する。
以上より,$\operatorname{Ex^2MCMC}$は,従属するグローバルな移動を提案する新しいアプローチを通じて,利用(局所移動)と探索(グローバル移動)の微調整を可能にすることを示す。
最後に、正規化フローを用いて大域移動の分布を学習する適応型スキーム、$\operatorname{FlEx^2MCMC}$を開発する。
我々は、多くの古典的なサンプリングベンチマークにおいて、$\operatorname{ex^2mcmc}$とその適応バージョンの有効性を示す。
また,これらのアルゴリズムがエネルギーベースモデルとしてganのサンプリング品質を向上させることを示した。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence [43.96096434967746]
対照的学習における鍵となる課題は、正のサンプルと対照的に大きなサンプルセットから負のサンプルを生成することである。
コントラスト学習のための効率的なマルコフ連鎖モンテカルロ陰性サンプリング法(EMC$2$)を提案する。
EMC$2$は,バッチサイズの選択に関係なく,グローバル収束(定常性)を示す最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2024-04-16T13:53:58Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Using Distance Correlation for Efficient Bayesian Optimization [0.0]
本論文では,$textsfGP-DC$というベイズ最適化手法を提案する。
探索と搾取を自動的にバランスさせ、手動のパラメータチューニングを必要としない。
ベンチマーク関数で$textsfgp-dc$を評価し、最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2021-02-17T19:37:35Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。
提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T15:37:50Z) - A unified framework for hard and soft clustering with regularized optimal transport [5.715859759904031]
本稿では、エントロピー正規化を伴う最適輸送問題として、離散データからFinitelamblambdageq 0を推定する問題を定式化する。
論文 参考訳(メタデータ) (2017-11-12T21:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。