Fugu-MT 論文翻訳(概要): Harnessing the Power of Reinforcement Learning for Adaptive MCMC

論文の概要: Harnessing the Power of Reinforcement Learning for Adaptive MCMC

arxiv url: http://arxiv.org/abs/2507.00671v1
Date: Tue, 01 Jul 2025 11:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.595276
Title: Harnessing the Power of Reinforcement Learning for Adaptive MCMC
Title（参考訳）: 適応MCMCにおける強化学習の力の調和
Authors: Congye Wang, Matthew A. Fisher, Heishiro Kanagawa, Wilson Chen, Chris. J. Oates,
Abstract要約: 強化学習メトロポリス・ハスティングス(Reinforcement Learning Metropolis-Hastings、RLMH)はマルコフの意思決定プロセスである。本稿では,受入率や期待二乗ジャンプ距離などの自然選択が,RLMHのトレーニングに不十分な信号を与えることを示す。本稿では,Markovトランジションカーネルの柔軟性と関連するRLタスクの学習性とをバランスさせる適応的勾配に基づくサンプリング手法を提案する。
参考スコア（独自算出の注目度）: 6.313580378481795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sampling algorithms drive probabilistic machine learning, and recent years have seen an explosion in the diversity of tools for this task. However, the increasing sophistication of sampling algorithms is correlated with an increase in the tuning burden. There is now a greater need than ever to treat the tuning of samplers as a learning task in its own right. In a conceptual breakthrough, Wang et al (2025) formulated Metropolis-Hastings as a Markov decision process, opening up the possibility for adaptive tuning using Reinforcement Learning (RL). Their emphasis was on theoretical foundations; realising the practical benefit of Reinforcement Learning Metropolis-Hastings (RLMH) was left for subsequent work. The purpose of this paper is twofold: First, we observe the surprising result that natural choices of reward, such as the acceptance rate, or the expected squared jump distance, provide insufficient signal for training RLMH. Instead, we propose a novel reward based on the contrastive divergence, whose superior performance in the context of RLMH is demonstrated. Second, we explore the potential of RLMH and present adaptive gradient-based samplers that balance flexibility of the Markov transition kernel with learnability of the associated RL task. A comprehensive simulation study using the posteriordb benchmark supports the practical effectiveness of RLMH.
Abstract（参考訳）: サンプリングアルゴリズムは確率論的機械学習を駆動し、近年、このタスクのためのツールの多様性が爆発的に増えている。しかし,サンプリングアルゴリズムの高度化は,チューニング負荷の増加と相関する。現在、サンプルのチューニングをそれ自体が学習タスクとして扱うことは、これまで以上に大きなニーズがあります。概念的なブレークスルーの中で、Wang et al (2025)はメトロポリス・ハスティングスをマルコフ決定プロセスとして定式化し、強化学習(RL)を用いた適応的チューニングの可能性を広げた。彼らの重点は理論の基礎であり、強化学習メトロポリス・ハスティングス(RLMH)の実践的な利益がその後の研究のために残された。まず、受入率や期待二乗ジャンプ距離などの自然選択が、RLMHの訓練に不十分な信号を与えるという驚くべき結果を観察する。その代わりに、RLMHの文脈における優れた性能を示す対照的な相違に基づく新たな報酬を提案する。第2に、マルコフ遷移カーネルの柔軟性と関連するRLタスクの学習性とをバランスさせるRLMHと適応勾配に基づくサンプルラの可能性について検討する。後続dbベンチマークを用いた総合シミュレーションは, RLMHの実用性を支持する。

関連論文リスト

Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文参考訳（メタデータ） (2025-07-01T14:04:17Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T06:41:07Z)
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。以上の結果から,PbMARLの多面的アプローチが示唆された。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
A Method for Fast Autonomy Transfer in Reinforcement Learning [3.8049020806504967]
本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
論文参考訳（メタデータ） (2024-07-29T23:48:07Z)
Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文参考訳（メタデータ） (2024-05-27T19:28:33Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文参考訳（メタデータ） (2022-08-25T21:08:01Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。