Fugu-MT 論文翻訳(概要): Reinforcement Learning for Adaptive MCMC

論文の概要: Reinforcement Learning for Adaptive MCMC

arxiv url: http://arxiv.org/abs/2405.13574v1
Date: Wed, 22 May 2024 12:11:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:14:28.058912
Title: Reinforcement Learning for Adaptive MCMC
Title（参考訳）: 適応MCMCのための強化学習
Authors: Congye Wang, Wilson Chen, Heishiro Kanagawa, Chris. J. Oates,
Abstract要約: 本稿では,強化学習メトロポリス(Reinforcement Learning Metropolis-Hastings)と呼ばれる一般的なフレームワークを構築することを目的とする。学習率の制御は、エルゴディディティの条件を満たすことを確実に保証する。この手法は、人気のある勾配のない適応メトロポリス・ハスティングスアルゴリズムより優れた勾配のないサンプリング器を構築するために用いられる。
参考スコア（独自算出の注目度）: 6.773499165024668
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An informal observation, made by several authors, is that the adaptive design of a Markov transition kernel has the flavour of a reinforcement learning task. Yet, to-date it has remained unclear how to actually exploit modern reinforcement learning technologies for adaptive MCMC. The aim of this paper is to set out a general framework, called Reinforcement Learning Metropolis--Hastings, that is theoretically supported and empirically validated. Our principal focus is on learning fast-mixing Metropolis--Hastings transition kernels, which we cast as deterministic policies and optimise via a policy gradient. Control of the learning rate provably ensures conditions for ergodicity are satisfied. The methodology is used to construct a gradient-free sampler that out-performs a popular gradient-free adaptive Metropolis--Hastings algorithm on $\approx 90 \%$ of tasks in the PosteriorDB benchmark.
Abstract（参考訳）: いくつかの著者による非公式な観察では、マルコフ遷移カーネルの適応設計は強化学習タスクの風味を持っている。しかし、現在に至るまで、適応MCMCに近代的な強化学習技術を実際に活用する方法は定かではない。本研究の目的は、理論的に支持され実証的に検証される強化学習メトロポリス-ハスティングと呼ばれる一般的な枠組みを構築することである。私たちの主な焦点は、高速混合メトロポリス-ハスティングス遷移カーネルの学習です。学習率の制御は、エルゴディディティの条件を満たすことを確実に保証する。この手法は、PosteriorDBベンチマークの90 \%のタスクに対して、人気のある勾配のない適応メトロポリス・ハスティングスアルゴリズムを上回り、勾配のないサンプリングシステムを構築するために用いられる。

関連論文リスト

In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文参考訳（メタデータ） (2025-06-18T06:43:55Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
Solving The Dynamic Volatility Fitting Problem: A Deep Reinforcement Learning Approach [0.0]
我々は,Deep Deterministic Policy Gradient (DDPG) とSoft Actor Critic (SAC) の変種が,少なくとも標準適合アルゴリズムと同程度の精度で実現できることを示す。複雑な目的関数を扱うのに強化学習フレームワークが適切である理由を解説する。
論文参考訳（メタデータ） (2024-10-15T17:10:54Z)
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。 MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-18T16:23:47Z)
Neural-Kernel Conditional Mean Embeddings [26.862984140099837]
カーネル条件付き平均埋め込み(CME)は条件分布を表す強力なフレームワークを提供するが、スケーラビリティと課題に直面することが多い。本稿では,これらの課題に対処するために,ディープラーニングとCMEの強みを効果的に組み合わせた新しい手法を提案する。条件付き密度推定タスクでは、NN-CMEハイブリッドは競合性能を達成し、しばしば既存のディープラーニング手法を上回ります。
論文参考訳（メタデータ） (2024-03-16T08:51:02Z)
SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients [99.13839450032408]
一般的な問題を解決するための適応アルゴリズムのための普遍的な枠組みを設計することが望まれる。特に,本フレームワークは,非収束的設定支援の下で適応的手法を提供する。
論文参考訳（メタデータ） (2021-06-15T15:16:28Z)
On Fast Adversarial Robustness Adaptation in Model-Agnostic Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-20T22:03:04Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文参考訳（メタデータ） (2021-02-07T20:53:23Z)
Non-convex Learning via Replica Exchange Stochastic Gradient MCMC [25.47669573608621]
本稿では,適応的複製交換SGMCMC(reSGMCMC)を提案し,バイアスを自動的に補正し,対応する特性について検討する。実験では,様々な設定の広範囲な実験を通じてアルゴリズムを検証し,その結果を得た。
論文参考訳（メタデータ） (2020-08-12T15:02:59Z)
Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-15T16:41:00Z)
Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文参考訳（メタデータ） (2020-05-25T13:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。