論文の概要: Ex$^2$MCMC: Sampling through Exploration Exploitation
- arxiv url: http://arxiv.org/abs/2111.02702v1
- Date: Thu, 4 Nov 2021 09:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 12:37:00.768666
- Title: Ex$^2$MCMC: Sampling through Exploration Exploitation
- Title(参考訳): Ex$2$MCMC:Exploration Exploitationによるサンプリング
- Authors: Evgeny Lagutin, Daniil Selikhanovych, Achille Thin, Sergey Samsonov,
Alexey Naumov, Denis Belomestny, Maxim Panov, Eric Moulines
- Abstract要約: 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズムを開発した。
また,正規化フローを用いてグローバルな動きの分布を学習する適応型スキームを開発した。
これらのアルゴリズムは、エネルギーベースモデルとしてGANをサンプリングする品質を改善する。
- 参考スコア(独自算出の注目度): 8.986856229675109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an Explore-Exploit Markov chain Monte Carlo algorithm
($\operatorname{Ex^2MCMC}$) that combines multiple global proposals and local
moves. The proposed method is massively parallelizable and extremely
computationally efficient. We prove $V$-uniform geometric ergodicity of
$\operatorname{Ex^2MCMC}$ under realistic conditions and compute explicit
bounds on the mixing rate showing the improvement brought by the multiple
global moves. We show that $\operatorname{Ex^2MCMC}$ allows fine-tuning of
exploitation (local moves) and exploration (global moves) via a novel approach
to proposing dependent global moves. Finally, we develop an adaptive scheme,
$\operatorname{FlEx^2MCMC}$, that learns the distribution of global moves using
normalizing flows. We illustrate the efficiency of $\operatorname{Ex^2MCMC}$
and its adaptive versions on many classical sampling benchmarks. We also show
that these algorithms improve the quality of sampling GANs as energy-based
models.
- Abstract(参考訳): 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズム(\operatorname{Ex^2MCMC}$)を開発した。
提案手法は並列化可能であり,計算効率が高い。
v$-uniform geometric ergodicity of $\operatorname{ex^2mcmc}$ を現実の条件下で証明し、複数の大域的な動きによってもたらされる改善を示す混合率の明示的な境界を計算する。
以上より,$\operatorname{Ex^2MCMC}$は,従属するグローバルな移動を提案する新しいアプローチを通じて,利用(局所移動)と探索(グローバル移動)の微調整を可能にすることを示す。
最後に、正規化フローを用いて大域移動の分布を学習する適応型スキーム、$\operatorname{FlEx^2MCMC}$を開発する。
我々は、多くの古典的なサンプリングベンチマークにおいて、$\operatorname{ex^2mcmc}$とその適応バージョンの有効性を示す。
また,これらのアルゴリズムがエネルギーベースモデルとしてganのサンプリング品質を向上させることを示した。
関連論文リスト
- Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文 参考訳(メタデータ) (2023-07-11T22:58:53Z) - O$n$ Learning Deep O($n$)-Equivariant Hyperspheres [16.02241795414262]
我々は、任意の次元$n$に一般化する球面決定曲面を持つO$(n)$-同変ニューロンを提案する。
我々は理論的貢献を実験的に検証し、O$(n)$-equivariantベンチマークデータセットの競合する手法よりもアプローチの方が優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-24T23:04:34Z) - Finite-Time Analysis of Fully Decentralized Single-Timescale
Actor-Critic [4.94128206910124]
本稿では,アクタ,批評家,グローバル報酬推定器を交互に更新する,完全に分散化されたアクタ・クリティカル(AC)アルゴリズムを提案する。
このアルゴリズムは,Markovian サンプリングにおいて $tildemathcalO(epsilon-2)$ のサンプル複雑性を持つことを示す。
また、我々のアルゴリズムのローカルアクションプライバシ保護バージョンとその分析も提供する。
論文 参考訳(メタデータ) (2022-06-12T13:14:14Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Using Distance Correlation for Efficient Bayesian Optimization [0.0]
本論文では,$textsfGP-DC$というベイズ最適化手法を提案する。
探索と搾取を自動的にバランスさせ、手動のパラメータチューニングを必要としない。
ベンチマーク関数で$textsfgp-dc$を評価し、最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2021-02-17T19:37:35Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - FANOK: Knockoffs in Linear Time [73.5154025911318]
本稿では,ガウスモデル-Xノックオフを効率的に実装し,大規模特徴選択問題における誤発見率を制御するアルゴリズムについて述べる。
当社のメソッドは、最大50,000ドルという問題でテストしています。
論文 参考訳(メタデータ) (2020-06-15T21:55:34Z) - Combinatorial Pure Exploration with Full-Bandit or Partial Linear
Feedback [18.29738891417779]
フルバンドフィードバック(CPE-BL)による純粋探索の問題点を最初に研究する。
CPE-BLでは、アクションのプル$x$は、$M_xtheta $を期待してランダムフィードバックベクトルを報告し、mathbbRd$の$M_xは、$x$の変換行列であり、$x$に関連するランダム(おそらく非線形)報酬を得る。
CPE-PLでは,限られたフィードバック,一般報酬関数,行動空間を同時に扱う最初のエムタイムアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-14T13:59:59Z) - Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。
提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T15:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。