論文の概要: Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization
- arxiv url: http://arxiv.org/abs/2409.04374v2
- Date: Tue, 10 Sep 2024 05:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 12:24:07.293728
- Title: Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization
- Title(参考訳): リーマン最適化による強化学習のためのガウスモデルQ-Functions
- Authors: Minh Vu, Konstantinos Slavakis,
- Abstract要約: 本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。
- 参考スコア(独自算出の注目度): 4.192712667327955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper establishes a novel role for Gaussian-mixture models (GMMs) as functional approximators of Q-function losses in reinforcement learning (RL). Unlike the existing RL literature, where GMMs play their typical role as estimates of probability density functions, GMMs approximate here Q-function losses. The new Q-function approximators, coined GMM-QFs, are incorporated in Bellman residuals to promote a Riemannian-optimization task as a novel policy-evaluation step in standard policy-iteration schemes. The paper demonstrates how the hyperparameters (means and covariance matrices) of the Gaussian kernels are learned from the data, opening thus the door of RL to the powerful toolbox of Riemannian optimization. Numerical tests show that with no use of experienced data, the proposed design outperforms state-of-the-art methods, even deep Q-networks which use experienced data, on benchmark RL tasks.
- Abstract(参考訳): 本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。
GMMが確率密度関数の推定として典型的な役割を果たす既存のRL文献とは異なり、GMMはここでのQ-函数の損失を近似する。
GMM-QFと呼ばれる新しいQ関数近似器はベルマン残差に組み込まれ、リーマン最適化タスクを標準方針決定スキームの新しいポリシー評価ステップとして推進する。
本稿は、ガウス核のハイパーパラメータ(平均と共分散行列)がデータからどのように学習されるかを示し、したがってリーマン最適化の強力なツールボックスへのRLの扉を開く。
数値実験では、経験データを使用しなくても、提案設計は、RLのベンチマークタスクで経験データを使用する最先端のQ-networksよりも優れていることが示された。
関連論文リスト
- SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Meta-learning to Calibrate Gaussian Processes with Deep Kernels for
Regression Uncertainty Estimation [43.23399636191726]
本稿では,遅延不確実性推定性能を改善するために,深層カーネルGPの校正のためのメタラーニング手法を提案する。
提案手法は,テスト期待校正誤差を最小限に抑えて,様々なタスクのデータを用いて不確実性を校正する方法をメタ学習する。
実験により,提案手法は高い回帰性能を維持しながら不確実性推定性能を向上させることを示した。
論文 参考訳(メタデータ) (2023-12-13T07:58:47Z) - Proximal Bellman mappings for reinforcement learning and their
application to robust adaptive filtering [4.140907550856865]
本稿ではベルマン写像の新しいクラスを紹介する。
写像は、カーネルヒルベルト空間の再現で定義される。
提案した写像のクラスに近似的なポリシイテレーションスキームを構築した。
論文 参考訳(メタデータ) (2023-09-14T09:20:21Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Missing Data Imputation and Acquisition with Deep Hierarchical Models
and Hamiltonian Monte Carlo [2.666288135543677]
混合型不完全データに対する階層型VAEモデルであるHH-VAEMを提案する。
実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,外れ値同定といったタスクにおいて,既存のベースラインよりも優れていた。
また,HH-VAEMで特徴が得られない場合に,情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T17:50:52Z) - Non-Gaussian Gaussian Processes for Few-Shot Regression [71.33730039795921]
乱変数ベクトルの各成分上で動作し,パラメータを全て共有する可逆なODEベースのマッピングを提案する。
NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-10-26T10:45:25Z) - Learning Nonparametric Volterra Kernels with Gaussian Processes [0.0]
本稿では、ガウス過程(GP)を用いて表現されたカーネルを持つボルテラ級数を用いて、非線形作用素の非パラメトリックベイズ学習法を提案する。
NVKMは、演算子への入力関数が観測されず、GP先行を持つとき、単出力と多重出力の両方の回帰のための強力な方法を構成し、非線形および非パラメトリック潜在力モデルと見なすことができる。
論文 参考訳(メタデータ) (2021-06-10T08:21:00Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Marginalised Gaussian Processes with Nested Sampling [10.495114898741203]
ガウス過程(GP)モデルは、カーネル関数によって制御される帰納バイアスを持つ関数上の豊富な分布である。
本研究は,Nested Smpling (NS) を用いてカーネル関数のハイパーパラメータを疎外する学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T16:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。