Fugu-MT 論文翻訳(概要): Operator Splitting Value Iteration

論文の概要: Operator Splitting Value Iteration

arxiv url: http://arxiv.org/abs/2211.13937v1
Date: Fri, 25 Nov 2022 07:34:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 14:41:17.367086
Title: Operator Splitting Value Iteration
Title（参考訳）: Operator Splitting Value Iteration
Authors: Amin Rakhsha, Andrew Wang, Mohammad Ghavamzadeh, Amir-massoud Farahmand
Abstract要約: 政策評価と制御の両問題に対してOS-VI(Operator Splitting Value Iteration)を導入する。 OS-VIは、モデルが十分に正確であれば、はるかに高速な収束率を達成する。従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。
参考スコア（独自算出の注目度）: 27.505231431328255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce new planning and reinforcement learning algorithms for discounted MDPs that utilize an approximate model of the environment to accelerate the convergence of the value function. Inspired by the splitting approach in numerical linear algebra, we introduce Operator Splitting Value Iteration (OS-VI) for both Policy Evaluation and Control problems. OS-VI achieves a much faster convergence rate when the model is accurate enough. We also introduce a sample-based version of the algorithm called OS-Dyna. Unlike the traditional Dyna architecture, OS-Dyna still converges to the correct value function in presence of model approximation error.
Abstract（参考訳）: 本稿では, 環境の近似モデルを用いて値関数の収束を高速化する, 割引MDPのための新しい計画と強化学習アルゴリズムを提案する。数値線形代数における分割アプローチに着想を得て,政策評価と制御問題の両方に対して演算子分割値反復 (os-vi) を導入する。 os-viはモデルが十分正確であれば、より高速に収束する。また、OS-Dynaと呼ばれるアルゴリズムのサンプルベースのバージョンも導入する。従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。

関連論文リスト

Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。 ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。 ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文参考訳（メタデータ） (2026-02-03T08:15:57Z)
Vecchia-Inducing-Points Full-Scale Approximations for Gaussian Processes [9.913418444556486]
ガウス過程に対するVecchia-inducing-points full-scale (VIF)近似を提案する。我々は、VIF近似は計算効率が良く、また、最先端の代替手法よりも精度が高く、数値的に安定であることを示した。すべてのメソッドは、オープンソースのC++ライブラリGPBoostで実装され、ハイレベルなPythonとRインターフェースを持つ。
論文参考訳（メタデータ） (2025-07-07T14:49:06Z)
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文参考訳（メタデータ） (2024-04-05T12:41:53Z)
Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文参考訳（メタデータ） (2023-12-19T21:45:38Z)
Adaptive operator learning for infinite-dimensional Bayesian inverse problems [7.716833952167609]
本研究では,局所的に精度の高いサロゲートを強制することによって,モデリングエラーを段階的に低減できる適応型演算子学習フレームワークを開発した。 UKIフレームワークを用いて線形の場合において厳密な収束を保証する。その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (2023-10-27T01:50:33Z)
Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文参考訳（メタデータ） (2023-04-14T16:02:04Z)
A DeepONet multi-fidelity approach for residual learning in reduced order modeling [0.0]
本稿では,多面的視点とDeepONetsを利用して,縮小順序モデルの精度を高める新しい手法を提案する。モデル削減を機械学習残差学習と組み合わせて、上記の誤りをニューラルネットワークで学習し、新しい予測のために推論することを提案する。
論文参考訳（メタデータ） (2023-02-24T15:15:07Z)
Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文参考訳（メタデータ） (2022-12-05T19:40:17Z)
A Stochastic Bundle Method for Interpolating Networks [18.313879914379008]
本稿では,実験的な損失をゼロにすることができるディープニューラルネットワークのトレーニング手法を提案する。各イテレーションにおいて,本手法は目的学習近似のバンドルとして知られる最大線形近似を構成する。
論文参考訳（メタデータ） (2022-01-29T23:02:30Z)
Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。 AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文参考訳（メタデータ） (2020-10-24T07:01:24Z)
Efficient Learning of Generative Models via Finite-Difference Score Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文参考訳（メタデータ） (2020-07-07T10:05:01Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。