Fugu-MT 論文翻訳(概要): Ex$^2$MCMC: Sampling through Exploration Exploitation

論文の概要: Ex$^2$MCMC: Sampling through Exploration Exploitation

arxiv url: http://arxiv.org/abs/2111.02702v1
Date: Thu, 4 Nov 2021 09:26:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-05 12:37:00.768666
Title: Ex$^2$MCMC: Sampling through Exploration Exploitation
Title（参考訳）: Ex$2$MCMC:Exploration Exploitationによるサンプリング
Authors: Evgeny Lagutin, Daniil Selikhanovych, Achille Thin, Sergey Samsonov, Alexey Naumov, Denis Belomestny, Maxim Panov, Eric Moulines
Abstract要約: 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズムを開発した。また,正規化フローを用いてグローバルな動きの分布を学習する適応型スキームを開発した。これらのアルゴリズムは、エネルギーベースモデルとしてGANをサンプリングする品質を改善する。
参考スコア（独自算出の注目度）: 8.986856229675109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop an Explore-Exploit Markov chain Monte Carlo algorithm ($\operatorname{Ex^2MCMC}$) that combines multiple global proposals and local moves. The proposed method is massively parallelizable and extremely computationally efficient. We prove $V$-uniform geometric ergodicity of $\operatorname{Ex^2MCMC}$ under realistic conditions and compute explicit bounds on the mixing rate showing the improvement brought by the multiple global moves. We show that $\operatorname{Ex^2MCMC}$ allows fine-tuning of exploitation (local moves) and exploration (global moves) via a novel approach to proposing dependent global moves. Finally, we develop an adaptive scheme, $\operatorname{FlEx^2MCMC}$, that learns the distribution of global moves using normalizing flows. We illustrate the efficiency of $\operatorname{Ex^2MCMC}$ and its adaptive versions on many classical sampling benchmarks. We also show that these algorithms improve the quality of sampling GANs as energy-based models.
Abstract（参考訳）: 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズム(\operatorname{Ex^2MCMC}$)を開発した。提案手法は並列化可能であり,計算効率が高い。 v$-uniform geometric ergodicity of $\operatorname{ex^2mcmc}$ を現実の条件下で証明し、複数の大域的な動きによってもたらされる改善を示す混合率の明示的な境界を計算する。以上より,$\operatorname{Ex^2MCMC}$は,従属するグローバルな移動を提案する新しいアプローチを通じて,利用(局所移動)と探索(グローバル移動)の微調整を可能にすることを示す。最後に、正規化フローを用いて大域移動の分布を学習する適応型スキーム、$\operatorname{FlEx^2MCMC}$を開発する。我々は、多くの古典的なサンプリングベンチマークにおいて、$\operatorname{ex^2mcmc}$とその適応バージョンの有効性を示す。また,これらのアルゴリズムがエネルギーベースモデルとしてganのサンプリング品質を向上させることを示した。

関連論文リスト

$κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs [20.944349513772067]
固有推定複雑性と訪問頻度を明示的に組み込んだ目的関数のパラメタ化ファミリを$U_$で導入する。本稿では,Frank-Wolfe方式の探索アルゴリズムである$-Explorerを提案する。 MDPのベンチマーク実験では、$$-Explorerが既存の探索戦略よりも優れたパフォーマンスを提供することが示された。
論文参考訳（メタデータ） (2026-02-23T22:56:32Z)
Complexity of Markov Chain Monte Carlo for Generalized Linear Models [1.4466802614938334]
我々は、$ngtrsim d$に対して、MCMCは$n$、$d$を1次最適化アルゴリズムと同様に、サブポリノミカル因子まで、同じ複雑さのスケーリングを実現することを示した。我々の複雑さは、学生=t$や平坦な事前を含む必ずしもガウス的ではない適切にスケールされた先行に適用される。
論文参考訳（メタデータ） (2025-12-14T16:04:27Z)
Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文参考訳（メタデータ） (2025-06-06T23:32:38Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文参考訳（メタデータ） (2024-05-10T09:58:47Z)
Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文参考訳（メタデータ） (2024-04-16T17:01:38Z)
EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence [43.96096434967746]
対照的学習における鍵となる課題は、正のサンプルと対照的に大きなサンプルセットから負のサンプルを生成することである。コントラスト学習のための効率的なマルコフ連鎖モンテカルロ陰性サンプリング法(EMC$2$)を提案する。 EMC$2$は,バッチサイズの選択に関係なく,グローバル収束(定常性)を示す最初のアルゴリズムであることを示す。
論文参考訳（メタデータ） (2024-04-16T13:53:58Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文参考訳（メタデータ） (2023-07-11T22:58:53Z)
Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文参考訳（メタデータ） (2023-03-30T02:51:00Z)
Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文参考訳（メタデータ） (2022-03-18T18:50:52Z)
Using Distance Correlation for Efficient Bayesian Optimization [0.0]
本論文では,$textsfGP-DC$というベイズ最適化手法を提案する。探索と搾取を自動的にバランスさせ、手動のパラメータチューニングを必要としない。ベンチマーク関数で$textsfgp-dc$を評価し、最先端メソッドよりも優れています。
論文参考訳（メタデータ） (2021-02-17T19:37:35Z)
Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。 AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文参考訳（メタデータ） (2021-02-09T07:46:34Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)
Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文参考訳（メタデータ） (2020-03-30T15:37:50Z)
A unified framework for hard and soft clustering with regularized optimal transport [5.715859759904031]
本稿では、エントロピー正規化を伴う最適輸送問題として、離散データからFinitelamblambdageq 0を推定する問題を定式化する。
論文参考訳（メタデータ） (2017-11-12T21:52:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。