Fugu-MT 論文翻訳(概要): Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning

論文の概要: Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.04088v2
Date: Fri, 08 Nov 2024 10:38:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.323499
Title: Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning
Title（参考訳）: モデルに基づくオフライン強化学習の改善のための決定論的不確実性伝播
Authors: Abdullah Akgül, Manuel Haußmann, Melih Kandemir,
Abstract要約: 本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
参考スコア（独自算出の注目度）: 12.490614705930676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current approaches to model-based offline reinforcement learning often incorporate uncertainty-based reward penalization to address the distributional shift problem. These approaches, commonly known as pessimistic value iteration, use Monte Carlo sampling to estimate the Bellman target to perform temporal difference based policy evaluation. We find out that the randomness caused by this sampling step significantly delays convergence. We present a theoretical result demonstrating the strong dependency of suboptimality on the number of Monte Carlo samples taken per Bellman target calculation. Our main contribution is a deterministic approximation to the Bellman target that uses progressive moment matching, a method developed originally for deterministic variational inference. The resulting algorithm, which we call Moment Matching Offline Model-Based Policy Optimization (MOMBO), propagates the uncertainty of the next state through a nonlinear Q-network in a deterministic fashion by approximating the distributions of hidden layer activations by a normal distribution. We show that it is possible to provide tighter guarantees for the suboptimality of MOMBO than the existing Monte Carlo sampling approaches. We also observe MOMBO to converge faster than these approaches in a large set of benchmark tasks.
Abstract（参考訳）: モデルに基づくオフライン強化学習への現在のアプローチは、分散シフト問題に対処するために不確実性に基づく報酬のペナル化をしばしば取り入れている。これらのアプローチは悲観的価値反復と呼ばれ、モンテカルロサンプリングを用いてベルマン目標を推定し、時間差に基づく政策評価を行う。このサンプリングによって生じるランダム性は収束を著しく遅らせることがわかった。本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。我々の主な貢献は、決定論的変動推論のために開発されたプログレッシブモーメントマッチングを用いたベルマン目標に対する決定論的近似である。このアルゴリズムは, 正規分布による隠蔽層活性化の分布を近似することにより, 非線形Qネットワークによる次の状態の不確かさを決定論的に伝達する。我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。また、MOMBOがこれらのアプローチよりも高速に収束することを、ベンチマークタスクの大規模なセットで観察する。

関連論文リスト

To bootstrap or to rollout? An optimal and adaptive interpolation [4.755935781862859]
本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
論文参考訳（メタデータ） (2024-11-14T19:00:00Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文参考訳（メタデータ） (2024-06-04T16:21:14Z)
Uncertainty Quantification for Traffic Forecasting: A Unified Approach [21.556559649467328]
不確実性は時系列予測タスクに不可欠な考慮事項である。本研究では,交通予測の不確かさの定量化に焦点をあてる。 STUQ(Deep S-Temporal Uncertainity Quantification)を開発した。
論文参考訳（メタデータ） (2022-08-11T15:21:53Z)
Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文参考訳（メタデータ） (2021-09-24T07:48:34Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Amortized Conditional Normalized Maximum Likelihood: Reliable Out of Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文参考訳（メタデータ） (2020-11-05T08:04:34Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
A Distributional Analysis of Sampling-Based Reinforcement Learning Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文参考訳（メタデータ） (2020-03-27T05:13:29Z)
Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文参考訳（メタデータ） (2020-01-19T12:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。