論文の概要: Harnessing the Power of Reinforcement Learning for Adaptive MCMC
- arxiv url: http://arxiv.org/abs/2507.00671v1
- Date: Tue, 01 Jul 2025 11:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.595276
- Title: Harnessing the Power of Reinforcement Learning for Adaptive MCMC
- Title(参考訳): 適応MCMCにおける強化学習の力の調和
- Authors: Congye Wang, Matthew A. Fisher, Heishiro Kanagawa, Wilson Chen, Chris. J. Oates,
- Abstract要約: 強化学習メトロポリス・ハスティングス(Reinforcement Learning Metropolis-Hastings、RLMH)はマルコフの意思決定プロセスである。
本稿では,受入率や期待二乗ジャンプ距離などの自然選択が,RLMHのトレーニングに不十分な信号を与えることを示す。
本稿では,Markovトランジションカーネルの柔軟性と関連するRLタスクの学習性とをバランスさせる適応的勾配に基づくサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 6.313580378481795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sampling algorithms drive probabilistic machine learning, and recent years have seen an explosion in the diversity of tools for this task. However, the increasing sophistication of sampling algorithms is correlated with an increase in the tuning burden. There is now a greater need than ever to treat the tuning of samplers as a learning task in its own right. In a conceptual breakthrough, Wang et al (2025) formulated Metropolis-Hastings as a Markov decision process, opening up the possibility for adaptive tuning using Reinforcement Learning (RL). Their emphasis was on theoretical foundations; realising the practical benefit of Reinforcement Learning Metropolis-Hastings (RLMH) was left for subsequent work. The purpose of this paper is twofold: First, we observe the surprising result that natural choices of reward, such as the acceptance rate, or the expected squared jump distance, provide insufficient signal for training RLMH. Instead, we propose a novel reward based on the contrastive divergence, whose superior performance in the context of RLMH is demonstrated. Second, we explore the potential of RLMH and present adaptive gradient-based samplers that balance flexibility of the Markov transition kernel with learnability of the associated RL task. A comprehensive simulation study using the posteriordb benchmark supports the practical effectiveness of RLMH.
- Abstract(参考訳): サンプリングアルゴリズムは確率論的機械学習を駆動し、近年、このタスクのためのツールの多様性が爆発的に増えている。
しかし,サンプリングアルゴリズムの高度化は,チューニング負荷の増加と相関する。
現在、サンプルのチューニングをそれ自体が学習タスクとして扱うことは、これまで以上に大きなニーズがあります。
概念的なブレークスルーの中で、Wang et al (2025)はメトロポリス・ハスティングスをマルコフ決定プロセスとして定式化し、強化学習(RL)を用いた適応的チューニングの可能性を広げた。
彼らの重点は理論の基礎であり、強化学習メトロポリス・ハスティングス(RLMH)の実践的な利益がその後の研究のために残された。
まず、受入率や期待二乗ジャンプ距離などの自然選択が、RLMHの訓練に不十分な信号を与えるという驚くべき結果を観察する。
その代わりに、RLMHの文脈における優れた性能を示す対照的な相違に基づく新たな報酬を提案する。
第2に、マルコフ遷移カーネルの柔軟性と関連するRLタスクの学習性とをバランスさせるRLMHと適応勾配に基づくサンプルラの可能性について検討する。
後続dbベンチマークを用いた総合シミュレーションは, RLMHの実用性を支持する。
関連論文リスト
- Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。
本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。
本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T14:04:17Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。