Fugu-MT 論文翻訳(概要): Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization

論文の概要: Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization

arxiv url: http://arxiv.org/abs/2409.04374v2
Date: Tue, 10 Sep 2024 05:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 12:24:07.293728
Title: Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization
Title（参考訳）: リーマン最適化による強化学習のためのガウスモデルQ-Functions
Authors: Minh Vu, Konstantinos Slavakis,
Abstract要約: 本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。
参考スコア（独自算出の注目度）: 4.192712667327955
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper establishes a novel role for Gaussian-mixture models (GMMs) as functional approximators of Q-function losses in reinforcement learning (RL). Unlike the existing RL literature, where GMMs play their typical role as estimates of probability density functions, GMMs approximate here Q-function losses. The new Q-function approximators, coined GMM-QFs, are incorporated in Bellman residuals to promote a Riemannian-optimization task as a novel policy-evaluation step in standard policy-iteration schemes. The paper demonstrates how the hyperparameters (means and covariance matrices) of the Gaussian kernels are learned from the data, opening thus the door of RL to the powerful toolbox of Riemannian optimization. Numerical tests show that with no use of experienced data, the proposed design outperforms state-of-the-art methods, even deep Q-networks which use experienced data, on benchmark RL tasks.
Abstract（参考訳）: 本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。 GMMが確率密度関数の推定として典型的な役割を果たす既存のRL文献とは異なり、GMMはここでのQ-函数の損失を近似する。 GMM-QFと呼ばれる新しいQ関数近似器はベルマン残差に組み込まれ、リーマン最適化タスクを標準方針決定スキームの新しいポリシー評価ステップとして推進する。本稿は、ガウス核のハイパーパラメータ(平均と共分散行列)がデータからどのように学習されるかを示し、したがってリーマン最適化の強力なツールボックスへのRLの扉を開く。数値実験では、経験データを使用しなくても、提案設計は、RLのベンチマークタスクで経験データを使用する最先端のQ-networksよりも優れていることが示された。

関連論文リスト

Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文参考訳（メタデータ） (2025-07-15T16:33:01Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。電力制御のケーススタディにおいて数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。 GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文参考訳（メタデータ） (2024-05-24T20:30:14Z)
Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。 MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文参考訳（メタデータ） (2023-08-29T15:01:01Z)
Sparse Gaussian Process Hyperparameters: Optimize or Integrate? [5.949779668853556]
本稿では, MCMC をハイパーパラメーター後部から試料として用いたスパースガウス過程回帰法を提案する。本稿では,文学における自然ベースラインと変分GP(SVGP)とを,広範な計算解析とともに比較する。
論文参考訳（メタデータ） (2022-11-04T14:06:59Z)
MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文参考訳（メタデータ） (2022-10-24T15:14:26Z)
Surrogate modeling for Bayesian optimization beyond a single Gaussian process [62.294228304646516]
本稿では,探索空間の活用と探索のバランスをとるための新しいベイズ代理モデルを提案する。拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。提案した EGP-TS を大域的最適に収束させるため,ベイズ的後悔の概念に基づいて解析を行う。
論文参考訳（メタデータ） (2022-05-27T16:43:10Z)
Missing Data Imputation and Acquisition with Deep Hierarchical Models and Hamiltonian Monte Carlo [2.666288135543677]
混合型不完全データに対する階層型VAEモデルであるHH-VAEMを提案する。実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,外れ値同定といったタスクにおいて,既存のベースラインよりも優れていた。また,HH-VAEMで特徴が得られない場合に,情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
論文参考訳（メタデータ） (2022-02-09T17:50:52Z)
Non-Gaussian Gaussian Processes for Few-Shot Regression [71.33730039795921]
乱変数ベクトルの各成分上で動作し,パラメータを全て共有する可逆なODEベースのマッピングを提案する。 NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れています。
論文参考訳（メタデータ） (2021-10-26T10:45:25Z)
Learning Nonparametric Volterra Kernels with Gaussian Processes [0.0]
本稿では、ガウス過程(GP)を用いて表現されたカーネルを持つボルテラ級数を用いて、非線形作用素の非パラメトリックベイズ学習法を提案する。 NVKMは、演算子への入力関数が観測されず、GP先行を持つとき、単出力と多重出力の両方の回帰のための強力な方法を構成し、非線形および非パラメトリック潜在力モデルと見なすことができる。
論文参考訳（メタデータ） (2021-06-10T08:21:00Z)
On MCMC for variationally sparse Gaussian processes: A pseudo-marginal approach [0.76146285961466]
ガウス過程(GP)は、機械学習や統計学において強力なモデルを構築するために頻繁に用いられる。本稿では,2重推定器による確率と大規模データセットの正確な推測と計算的ゲインを提供する擬似マージナル(PM)方式を提案する。
論文参考訳（メタデータ） (2021-03-04T20:48:29Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)
Marginalised Gaussian Processes with Nested Sampling [10.495114898741203]
ガウス過程(GP)モデルは、カーネル関数によって制御される帰納バイアスを持つ関数上の豊富な分布である。本研究は,Nested Smpling (NS) を用いてカーネル関数のハイパーパラメータを疎外する学習手法を提案する。
論文参考訳（メタデータ） (2020-10-30T16:04:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。