論文の概要: Score-Based Metropolis-Hastings Algorithms
- arxiv url: http://arxiv.org/abs/2501.00467v1
- Date: Tue, 31 Dec 2024 14:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:12.842412
- Title: Score-Based Metropolis-Hastings Algorithms
- Title(参考訳): スコアベースメトロポリスハスティングアルゴリズム
- Authors: Ahmed Aloui, Ali Hasan, Juncheng Dong, Zihao Wu, Vahid Tarokh,
- Abstract要約: スコアベースモデルとメトロポリス・ハスティングスアルゴリズムを統合するための新しいアプローチを提案する。
伝統的なスコアベースの拡散モデルではエネルギー関数が欠如しており、メトロポリス・ハスティングス調整は到達不能である。
- 参考スコア(独自算出の注目度): 31.860267159504623
- License:
- Abstract: In this paper, we introduce a new approach for integrating score-based models with the Metropolis-Hastings algorithm. While traditional score-based diffusion models excel in accurately learning the score function from data points, they lack an energy function, making the Metropolis-Hastings adjustment step inaccessible. Consequently, the unadjusted Langevin algorithm is often used for sampling using estimated score functions. The lack of an energy function then prevents the application of the Metropolis-adjusted Langevin algorithm and other Metropolis-Hastings methods, limiting the wealth of other algorithms developed that use acceptance functions. We address this limitation by introducing a new loss function based on the \emph{detailed balance condition}, allowing the estimation of the Metropolis-Hastings acceptance probabilities given a learned score function. We demonstrate the effectiveness of the proposed method for various scenarios, including sampling from heavy-tail distributions.
- Abstract(参考訳): 本稿では,スコアベースモデルとメトロポリス・ハスティングスアルゴリズムを統合するための新しいアプローチを提案する。
従来のスコアベース拡散モデルは、データポイントからスコア関数を正確に学習する上で優れているが、エネルギー関数が欠如しており、メトロポリス・ハスティングス調整のステップはアクセスできない。
その結果、アン調整のランゲヴィンアルゴリズムは推定スコア関数を用いたサンプリングによく用いられる。
エネルギー関数の欠如により、メトロポリス調整ランゲヴィン法や他のメトロポリス・ハスティング法の適用が防止され、受け入れ関数を使用する他のアルゴリズムの富が制限される。
この制限は,学習スコア関数が与えられたメトロポリス・ハスティングスの受容確率を推定できるように,<emph{detailed balance condition}に基づく新たな損失関数を導入することで解決する。
ヘビーテール分布のサンプリングなど,様々なシナリオにおいて提案手法の有効性を実証する。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Robust Non-parametric Knowledge-based Diffusion Least Mean Squares over
Adaptive Networks [12.266804067030455]
提案アルゴリズムは, 協調推定器群における未知パラメータベクトルのロバストな推定に導かれる。
その結果,異なるノイズの種類が存在する場合,提案アルゴリズムのロバスト性を示す。
論文 参考訳(メタデータ) (2023-12-03T06:18:59Z) - Statistical guarantees for stochastic Metropolis-Hastings [0.0]
バッチ上での受け入れ確率を計算することで、Metropolis-Hastingsステップは計算コストを削減できるが、有効なサンプルサイズを削減できる。
この障害を簡単な補正項で回避できることを示す。
我々は、メトロポリス・ハスティングス・アルゴリズムが、古典的なメトロポリス調整ランゲヴィン・アルゴリズムから得られるものと同様の挙動を示す。
論文 参考訳(メタデータ) (2023-10-13T18:00:26Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Missing Data Imputation and Acquisition with Deep Hierarchical Models
and Hamiltonian Monte Carlo [2.666288135543677]
混合型不完全データに対する階層型VAEモデルであるHH-VAEMを提案する。
実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,外れ値同定といったタスクにおいて,既存のベースラインよりも優れていた。
また,HH-VAEMで特徴が得られない場合に,情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T17:50:52Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Gaussian Process Policy Optimization [0.0]
本稿では,アクターに批判的かつモデルなしの強化学習アルゴリズムを提案する。
ベイズ的パラメータ空間探索法を用いて環境を解く。
ロボットの移動をシミュレートする環境において、現在のアルゴリズムよりも経験的に優れていることが示されています。
論文 参考訳(メタデータ) (2020-03-02T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。