論文の概要: Score-Repellent Monte Carlo: Toward Efficient Non-Markovian Sampler with Constant Memory in General State Spaces
- arxiv url: http://arxiv.org/abs/2604.22948v1
- Date: Fri, 24 Apr 2026 18:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.065717
- Title: Score-Repellent Monte Carlo: Toward Efficient Non-Markovian Sampler with Constant Memory in General State Spaces
- Title(参考訳): Score-Repellent Monte Carlo: 一般状態空間における定常記憶を伴う効率的な非マルコフサンプリングを目指して
- Authors: Jie Hu, Lingyun Chen, Geeho Kim, Jinyoung Choi, Bohyung Han, Do Young Eun,
- Abstract要約: 本稿では,スコアと状態表現の次元である$Rd$のスコア評価の実行平均で履歴を要約するフレームワークを提案する。
この歴史は指数的なスコア傾きによって代理対象に変換され、歴史に基づく反発の大きさを制御する際の反発の強さを表す$$がインデックス付けされる。
連続目標モデルと離散エネルギーベースモデルの実験では、メモリ使用率を$O(d)$に抑えつつ、推定値の分散とモードカバレッジを改善した。
- 参考スコア(独自算出の注目度): 48.37754141688874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: History-dependent sampling can reduce long-run Monte Carlo variance by discouraging redundant revisits, but existing schemes typically encode history through empirical measure on finite state spaces, which is infeasible in high-dimensional discrete configuration spaces or ill-posed in continuous domains. We propose Score-Repellent Monte Carlo (SRMC) framework that summarizes trajectory history by a running average of score evaluations in $R^d$, where $d$ is the dimension of the score and state representation. This history is converted into a surrogate target through an exponential score tilt, indexed with $α$ that represents the strength of repellence in controlling the magnitude of the history-based repulsion. The surrogate family is normalization-free in the standard MCMC sense, yielding a generic wrapper: at each iteration, any base kernel targeting $π$ can instead be run on the current surrogate $π_{θ_n}$ while the history is updated online. We analyze the coupled evolution of the history recursion and Monte Carlo estimators using stochastic approximation with controlled Markovian noise, establishing almost sure convergence and a joint central limit theorem. We further identify regimes in which the asymptotic covariance decreases as $α$ increases, with scaling $O(1/α)$, extending the near-zero-variance effect of finite-state history-dependent samplers to general state spaces with constant memory. Experiments on continuous targets and discrete energy-based models demonstrate improved estimator variance and mode coverage, while retaining $O(d)$ memory usage and modest per-iteration overhead.
- Abstract(参考訳): 歴史に依存したサンプリングは、冗長な再検討を回避して長期のモンテカルロ分散を減少させることができるが、既存のスキームは一般に有限状態空間上の経験的測度を通して歴史を符号化する。
本稿では,Score-Repellent Monte Carlo (SRMC) フレームワークを提案する。
この歴史は指数的なスコア傾きによって代理対象に変換され、歴史に基づく反発の大きさを制御する際の反発の強さを表す$α$がインデックス付けされる。
シュロゲートファミリーは標準MCMCの意味で正規化されていないため、ジェネリックラッパーが得られる: それぞれのイテレーションにおいて、$π$をターゲットにしたベースカーネルは現在のサロゲート$π_{θ_n}$で実行でき、その履歴はオンラインで更新される。
マルコフ雑音を制御した確率近似を用いてヒストリカーレーションとモンテカルロ推定器の結合進化を解析し、ほぼ確実な収束と連立中心極限定理を確立する。
さらに、漸近的共分散が$α$増加するにつれて減少し、O(1/α)$をスケーリングし、有限状態履歴依存型サンプリング器のほぼゼロの分散効果を、メモリが一定である一般状態空間に拡張する。
連続目標モデルと離散エネルギーベースモデルによる実験では、メモリ使用率を$O(d)$に抑えつつ、推定値の分散とモードカバレッジを改善した。
関連論文リスト
- Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations [49.702772230127465]
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T02:57:01Z) - SGD with Dependent Data: Optimal Estimation, Regret, and Inference [3.038061705362137]
勾配降下 (SGD) は, 広範囲の段階的スケジュールと探索率スキームの下で, 独立情報と依存情報の両方に対応できることが示されている。
SGDは統計的に最適な推定誤差と後悔を同時に達成し,既存の結果を拡張し,改善することを示す。
オンラインのスパースレグレッションのために、我々はSGDベースの新しいアルゴリズムを開発し、ストレージの$d$のみを使用し、1イテレーションあたり$O(d)$フロップを必要とする。
論文 参考訳(メタデータ) (2026-01-04T04:52:11Z) - Beyond Self-Repellent Kernels: History-Driven Target Towards Efficient Nonlinear MCMC on General Graphs [7.434126318858966]
我々はマルコフ・チェイン・モンテカルロ(MCMC)における履歴駆動型目標(HDT)フレームワークを提案し、離散状態空間におけるランダムウォークアルゴリズムを改善する。
また,HDTは,現在の状態と提案状態の局所的な情報のみを必要とすることにより,軽量な実装を保っていることを示す。
グラフサンプリング実験は、一貫したパフォーマンス向上を示し、メモリ効率の高いLRUキャッシュは、大規模な汎用グラフへのスケーラビリティを保証する。
論文 参考訳(メタデータ) (2025-05-23T18:46:10Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Online covariance estimation for stochastic gradient descent under
Markovian sampling [20.02012768403544]
位数$Obig(sqrtd,n-1/8(log n)1/4big)$の収束率は、状態依存および状態依存マルコフサンプリングの下で確立される。
本手法はロジスティック回帰を用いた戦略分類に適用され, 学習中の特徴を適応的に修正し, 対象クラス分類に影響を与える。
論文 参考訳(メタデータ) (2023-08-03T00:21:30Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。