論文の概要: Harnessing the Power of Reinforcement Learning for Adaptive MCMC
- arxiv url: http://arxiv.org/abs/2507.00671v1
- Date: Tue, 01 Jul 2025 11:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.595276
- Title: Harnessing the Power of Reinforcement Learning for Adaptive MCMC
- Title(参考訳): 適応MCMCにおける強化学習の力の調和
- Authors: Congye Wang, Matthew A. Fisher, Heishiro Kanagawa, Wilson Chen, Chris. J. Oates,
- Abstract要約: 強化学習メトロポリス・ハスティングス(Reinforcement Learning Metropolis-Hastings、RLMH)はマルコフの意思決定プロセスである。
本稿では,受入率や期待二乗ジャンプ距離などの自然選択が,RLMHのトレーニングに不十分な信号を与えることを示す。
本稿では,Markovトランジションカーネルの柔軟性と関連するRLタスクの学習性とをバランスさせる適応的勾配に基づくサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 6.313580378481795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sampling algorithms drive probabilistic machine learning, and recent years have seen an explosion in the diversity of tools for this task. However, the increasing sophistication of sampling algorithms is correlated with an increase in the tuning burden. There is now a greater need than ever to treat the tuning of samplers as a learning task in its own right. In a conceptual breakthrough, Wang et al (2025) formulated Metropolis-Hastings as a Markov decision process, opening up the possibility for adaptive tuning using Reinforcement Learning (RL). Their emphasis was on theoretical foundations; realising the practical benefit of Reinforcement Learning Metropolis-Hastings (RLMH) was left for subsequent work. The purpose of this paper is twofold: First, we observe the surprising result that natural choices of reward, such as the acceptance rate, or the expected squared jump distance, provide insufficient signal for training RLMH. Instead, we propose a novel reward based on the contrastive divergence, whose superior performance in the context of RLMH is demonstrated. Second, we explore the potential of RLMH and present adaptive gradient-based samplers that balance flexibility of the Markov transition kernel with learnability of the associated RL task. A comprehensive simulation study using the posteriordb benchmark supports the practical effectiveness of RLMH.
- Abstract(参考訳): サンプリングアルゴリズムは確率論的機械学習を駆動し、近年、このタスクのためのツールの多様性が爆発的に増えている。
しかし,サンプリングアルゴリズムの高度化は,チューニング負荷の増加と相関する。
現在、サンプルのチューニングをそれ自体が学習タスクとして扱うことは、これまで以上に大きなニーズがあります。
概念的なブレークスルーの中で、Wang et al (2025)はメトロポリス・ハスティングスをマルコフ決定プロセスとして定式化し、強化学習(RL)を用いた適応的チューニングの可能性を広げた。
彼らの重点は理論の基礎であり、強化学習メトロポリス・ハスティングス(RLMH)の実践的な利益がその後の研究のために残された。
まず、受入率や期待二乗ジャンプ距離などの自然選択が、RLMHの訓練に不十分な信号を与えるという驚くべき結果を観察する。
その代わりに、RLMHの文脈における優れた性能を示す対照的な相違に基づく新たな報酬を提案する。
第2に、マルコフ遷移カーネルの柔軟性と関連するRLタスクの学習性とをバランスさせるRLMHと適応勾配に基づくサンプルラの可能性について検討する。
後続dbベンチマークを用いた総合シミュレーションは, RLMHの実用性を支持する。
関連論文リスト
- Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening [14.647624238539777]
本稿では,ベースモデルの自己回帰的生成分布を高速化する,学習不要かつ検証不要なアルゴリズムを提案する。
提案手法は,外部の報酬に頼らずに1ショットのGRPOに適合または超過し,推論遅延を10倍以上削減する。
論文 参考訳(メタデータ) (2026-01-29T12:01:53Z) - Diversity or Precision? A Deep Dive into Next Token Prediction [19.30494719444709]
本研究では,事前学習したトークン出力分布が,その後の強化学習の探索ポテンシャルをいかに形成するかを検討する。
精度指向の勾配を先行させると、RLのより優れた探索空間が得られることが分かる。
論文 参考訳(メタデータ) (2025-12-28T14:53:24Z) - Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models [47.05227816684691]
推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。
高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。
我々は,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロの利点値を維持することを保証する。
論文 参考訳(メタデータ) (2025-09-30T17:58:34Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。
本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。
本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T14:04:17Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - A Method for Fast Autonomy Transfer in Reinforcement Learning [3.8049020806504967]
本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
論文 参考訳(メタデータ) (2024-07-29T23:48:07Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。