論文の概要: Operator Splitting Value Iteration
- arxiv url: http://arxiv.org/abs/2211.13937v1
- Date: Fri, 25 Nov 2022 07:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:41:17.367086
- Title: Operator Splitting Value Iteration
- Title(参考訳): Operator Splitting Value Iteration
- Authors: Amin Rakhsha, Andrew Wang, Mohammad Ghavamzadeh, Amir-massoud
Farahmand
- Abstract要約: 政策評価と制御の両問題に対してOS-VI(Operator Splitting Value Iteration)を導入する。
OS-VIは、モデルが十分に正確であれば、はるかに高速な収束率を達成する。
従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。
- 参考スコア(独自算出の注目度): 27.505231431328255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce new planning and reinforcement learning algorithms for
discounted MDPs that utilize an approximate model of the environment to
accelerate the convergence of the value function. Inspired by the splitting
approach in numerical linear algebra, we introduce Operator Splitting Value
Iteration (OS-VI) for both Policy Evaluation and Control problems. OS-VI
achieves a much faster convergence rate when the model is accurate enough. We
also introduce a sample-based version of the algorithm called OS-Dyna. Unlike
the traditional Dyna architecture, OS-Dyna still converges to the correct value
function in presence of model approximation error.
- Abstract(参考訳): 本稿では, 環境の近似モデルを用いて値関数の収束を高速化する, 割引MDPのための新しい計画と強化学習アルゴリズムを提案する。
数値線形代数における分割アプローチに着想を得て,政策評価と制御問題の両方に対して演算子分割値反復 (os-vi) を導入する。
os-viはモデルが十分正確であれば、より高速に収束する。
また、OS-Dynaと呼ばれるアルゴリズムのサンプルベースのバージョンも導入する。
従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。
関連論文リスト
- Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。
両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文 参考訳(メタデータ) (2024-04-05T12:41:53Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Adaptive operator learning for infinite-dimensional Bayesian inverse problems [7.716833952167609]
本研究では,局所的に精度の高いサロゲートを強制することによって,モデリングエラーを段階的に低減できる適応型演算子学習フレームワークを開発した。
UKIフレームワークを用いて線形の場合において厳密な収束を保証する。
その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-10-27T01:50:33Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - A DeepONet multi-fidelity approach for residual learning in reduced
order modeling [0.0]
本稿では,多面的視点とDeepONetsを利用して,縮小順序モデルの精度を高める新しい手法を提案する。
モデル削減を機械学習残差学習と組み合わせて、上記の誤りをニューラルネットワークで学習し、新しい予測のために推論することを提案する。
論文 参考訳(メタデータ) (2023-02-24T15:15:07Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - A Stochastic Bundle Method for Interpolating Networks [18.313879914379008]
本稿では,実験的な損失をゼロにすることができるディープニューラルネットワークのトレーニング手法を提案する。
各イテレーションにおいて,本手法は目的学習近似のバンドルとして知られる最大線形近似を構成する。
論文 参考訳(メタデータ) (2022-01-29T23:02:30Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。