論文の概要: Borrowing From the Future: Addressing Double Sampling in Model-free
Control
- arxiv url: http://arxiv.org/abs/2006.06173v1
- Date: Thu, 11 Jun 2020 03:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:06:10.752068
- Title: Borrowing From the Future: Addressing Double Sampling in Model-free
Control
- Title(参考訳): 未来からの借用語:モデルフリー制御における二重サンプリング対応
- Authors: Yuhua Zhu, Zach Izzo, Lexing Ying
- Abstract要約: 本稿では,BFFアルゴリズムをアクション値関数に基づくモデルフリー制御に拡張する。
BFF が非バイアスの SGD に近づき、基礎となる力学が動作に関してゆっくりと変化する。
- 参考スコア(独自算出の注目度): 8.282602586225833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-free reinforcement learning, the temporal difference method and its
variants become unstable when combined with nonlinear function approximations.
Bellman residual minimization with stochastic gradient descent (SGD) is more
stable, but it suffers from the double sampling problem: given the current
state, two independent samples for the next state are required, but often only
one sample is available. Recently, the authors of [Zhu et al, 2020] introduced
the borrowing from the future (BFF) algorithm to address this issue for the
prediction problem. The main idea is to borrow extra randomness from the future
to approximately re-sample the next state when the underlying dynamics of the
problem are sufficiently smooth. This paper extends the BFF algorithm to
action-value function based model-free control. We prove that BFF is close to
unbiased SGD when the underlying dynamics vary slowly with respect to actions.
We confirm our theoretical findings with numerical simulations.
- Abstract(参考訳): モデルフリー強化学習では、時間差法とその変種は非線形関数近似と組み合わせて不安定になる。
確率勾配降下 (SGD) を伴うベルマン残差最小化はより安定であるが、二重サンプリング問題に悩まされる: 現在の状態を考えると、次の状態のための2つの独立したサンプルが必要であるが、しばしば1つのサンプルのみが利用可能である。
近年, [Zhu et al, 2020] の著者らは, 予測問題に対するこの問題に対処するために, 未来 (BFF) アルゴリズムの借入を導入した。
主なアイデアは、問題の基礎となるダイナミクスが十分に滑らかであるときに、将来から余分なランダム性を借りて、次の状態をほぼ再サンプルすることである。
本稿では,BFFアルゴリズムをアクション値関数に基づくモデルフリー制御に拡張する。
BFF が非バイアスの SGD に近づき、基礎となる力学が動作に関してゆっくりと変化する。
数値シミュレーションにより理論的知見を確認した。
関連論文リスト
- Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Favour: FAst Variance Operator for Uncertainty Rating [0.034530027457862]
機械学習予測を解釈するための重要なアプローチとしてベイズニューラルネットワーク(BNN)が登場した。
後部分布からサンプリングすることで、データサイエンティストは推論の不確実性を推定することができる。
以前の研究は、ネットワークを介して後部の第1モーメントと第2モーメントを伝播することを提案した。
この方法はサンプリングよりも遅いため、伝播分散を近似する必要がある。
私たちの貢献は、より原則化された分散伝播フレームワークです。
論文 参考訳(メタデータ) (2023-11-21T22:53:20Z) - Simulation-free Schr\"odinger bridges via score and flow matching [89.4231207928885]
シミュレーションフリースコアとフローマッチング([SF]$2$M)を提案する。
本手法は,拡散モデルのトレーニングに使用するスコアマッチング損失と,連続流のトレーニングに使用されるフローマッチング損失の両方を一般化する。
特に、[SF]$2$Mは、高次元の細胞動態を正確にモデル化し、既知の遺伝子制御ネットワークをシミュレートする最初の方法である。
論文 参考訳(メタデータ) (2023-07-07T15:42:35Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Restoration-Degradation Beyond Linear Diffusions: A Non-Asymptotic
Analysis For DDIM-Type Samplers [90.45898746733397]
本研究では拡散生成モデルに用いる決定論的サンプリング器の非漸近解析のためのフレームワークを開発する。
確率フローODEに沿った1ステップは,1) 条件付き対数線上を無限に先行して上昇する回復ステップ,2) 雑音を現在の勾配に向けて前向きに進行する劣化ステップの2段階で表すことができる。
論文 参考訳(メタデータ) (2023-03-06T18:59:19Z) - A view of mini-batch SGD via generating functions: conditions of
convergence, phase transitions, benefit from negative momenta [14.857119814202754]
運動量を持つミニバッチSGDは、大きな予測モデルを学ぶための基本的なアルゴリズムである。
そこで我々は,線形モデルに対する最小バッチSGDを,異なるモータとバッチサイズで解析する新しい分析フレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-22T14:15:35Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。