論文の概要: Gaussian-Mixture-Model Q-Functions for Policy Iteration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.18763v1
- Date: Sun, 21 Dec 2025 15:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.492235
- Title: Gaussian-Mixture-Model Q-Functions for Policy Iteration in Reinforcement Learning
- Title(参考訳): 強化学習における政策反復のためのガウスミクチャーモデルQ-Functions
- Authors: Minh Vu, Konstantinos Slavakis,
- Abstract要約: 本稿では, ガウス混合モデル(GMM)のQ-関数損失の直接サロゲートとして, 関数近似を新たに導入する。
これらのパラメトリックモデルはGMM-QFと呼ばれ、相当な表現能力を持っている。
それらは、幅広い種類の函数に対する普遍近似である。
- 参考スコア(独自算出の注目度): 7.056697401102689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike their conventional use as estimators of probability density functions in reinforcement learning (RL), this paper introduces a novel function-approximation role for Gaussian mixture models (GMMs) as direct surrogates for Q-function losses. These parametric models, termed GMM-QFs, possess substantial representational capacity, as they are shown to be universal approximators over a broad class of functions. They are further embedded within Bellman residuals, where their learnable parameters -- a fixed number of mixing weights, together with Gaussian mean vectors and covariance matrices -- are inferred from data via optimization on a Riemannian manifold. This geometric perspective on the parameter space naturally incorporates Riemannian optimization into the policy-evaluation step of standard policy-iteration frameworks. Rigorous theoretical results are established, and supporting numerical tests show that, even without access to experience data, GMM-QFs deliver competitive performance and, in some cases, outperform state-of-the-art approaches across a range of benchmark RL tasks, all while maintaining a significantly smaller computational footprint than deep-learning methods that rely on experience data.
- Abstract(参考訳): 強化学習(RL)における確率密度関数の推定器としての利用とは異なり,本研究では,Q-関数損失の直接サロゲートとしてガウス混合モデル(GMM)の関数近似を新たに導入する。
これらのパラメトリックモデルは、GMM-QFと呼ばれ、幅広い種類の関数に対する普遍近似子であることが示されるため、相当な表現能力を持つ。
それらはベルマン残差の中にさらに埋め込まれており、その学習可能なパラメータ -- ガウス平均ベクトルと共分散行列とともに ― はリーマン多様体上の最適化を通じてデータから推測される。
パラメータ空間上のこの幾何学的視点は、リーマン最適化を標準ポリシーイテレーションフレームワークのポリシー評価ステップに自然に組み込む。
厳密な理論的結果が確立され、数値テストのサポートにより、経験データにアクセスせずにも、GMM-QFは競争性能が得られ、場合によっては、経験データに依存するディープラーニング手法よりもはるかに少ない計算フットプリントを維持しながら、様々なベンチマークRLタスクにおいて最先端のアプローチより優れていることが示される。
関連論文リスト
- Online reinforcement learning via sparse Gaussian mixture model Q-functions [7.056697401102689]
本稿では,強化学習のための構造化・解釈可能なオンラインポリシイテレーションフレームワークを提案する。
スパースガウス混合モデルQ-函数(S-GMM-QFs)の新たなクラスを中心に構築されている。
数値実験により,S-GMM-QFは標準ベンチマーク上での高密度深度RL(DeepRL)法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-09-18T03:37:11Z) - Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。
我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。
本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文 参考訳(メタデータ) (2025-07-15T16:33:01Z) - Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization [4.192712667327955]
本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。
論文 参考訳(メタデータ) (2024-09-06T16:13:04Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Posterior Contraction Rates for Mat\'ern Gaussian Processes on
Riemannian Manifolds [51.68005047958965]
我々は,本質的なガウス過程が実際により優れた性能を発揮することを示す。
我々の研究は、データ効率の異なるレベルを区別するために、よりきめ細かい分析が必要であることを示している。
論文 参考訳(メタデータ) (2023-09-19T20:30:58Z) - On MCMC for variationally sparse Gaussian processes: A pseudo-marginal
approach [0.76146285961466]
ガウス過程(GP)は、機械学習や統計学において強力なモデルを構築するために頻繁に用いられる。
本稿では,2重推定器による確率と大規模データセットの正確な推測と計算的ゲインを提供する擬似マージナル(PM)方式を提案する。
論文 参考訳(メタデータ) (2021-03-04T20:48:29Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。