論文の概要: Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates
- arxiv url: http://arxiv.org/abs/2110.14818v1
- Date: Thu, 28 Oct 2021 00:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-30 08:37:19.665955
- Title: Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates
- Title(参考訳): 不確かさ誘導型ソフトアップデートによる時間差値推定
- Authors: Litian Liang, Yaosheng Xu, Stephen McAleer, Dailin Hu, Alexander
Ihler, Pieter Abbeel, Roy Fox
- Abstract要約: Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
- 参考スコア(独自算出の注目度): 110.92598350897192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal-Difference (TD) learning methods, such as Q-Learning, have proven
effective at learning a policy to perform control tasks. One issue with methods
like Q-Learning is that the value update introduces bias when predicting the TD
target of a unfamiliar state. Estimation noise becomes a bias after the max
operator in the policy improvement step, and carries over to value estimations
of other states, causing Q-Learning to overestimate the Q value. Algorithms
like Soft Q-Learning (SQL) introduce the notion of a soft-greedy policy, which
reduces the estimation bias via soft updates in early stages of training.
However, the inverse temperature $\beta$ that controls the softness of an
update is usually set by a hand-designed heuristic, which can be inaccurate at
capturing the uncertainty in the target estimate. Under the belief that $\beta$
is closely related to the (state dependent) model uncertainty, Entropy
Regularized Q-Learning (EQL) further introduces a principled scheduling of
$\beta$ by maintaining a collection of the model parameters that characterizes
model uncertainty. In this paper, we present Unbiased Soft Q-Learning (UQL),
which extends the work of EQL from two action, finite state spaces to
multi-action, infinite state space Markov Decision Processes. We also provide a
principled numerical scheduling of $\beta$, extended from SQL and using model
uncertainty, during the optimization process. We show the theoretical
guarantees and the effectiveness of this update method in experiments on
several discrete control environments.
- Abstract(参考訳): 時間変化(td)学習法(q-learning)は、制御タスクを実行するポリシーの学習に有効であることが証明されている。
Q-Learningのような手法の1つの問題は、値更新が不慣れな状態のTDターゲットを予測するときにバイアスをもたらすことである。
評価ノイズは、政策改善ステップにおける最大演算子の後バイアスとなり、他の状態の値推定に受け継がれ、Q-LearningはQ値を過大評価する。
ソフトqラーニング(sql)のようなアルゴリズムは、トレーニングの初期段階におけるソフトアップデートによる推定バイアスを減らすソフトグリーディポリシの概念を導入している。
しかし、更新の柔らかさを制御する逆温度$\beta$は、通常手設計のヒューリスティックによって設定される。
Entropy Regularized Q-Learning (EQL)は、$\beta$が(状態依存)モデルの不確実性と密接に関連しているという信念の下で、モデルの不確実性を特徴づけるモデルのパラメータの集合を維持することによって、$\beta$の原則的なスケジューリングを導入する。
本稿では,Unbiased Soft Q-Learning (UQL)を提案する。これは,EQLの動作を2つの作用,有限状態空間から多作用,無限状態空間,マルコフ決定過程まで拡張する。
また、最適化プロセス中にsqlから拡張されモデル不確実性を使用する$\beta$の原則付き数値スケジューリングも提供します。
いくつかの個別制御環境における実験において,この更新手法の理論的保証と有効性を示す。
関連論文リスト
- Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。
ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文 参考訳(メタデータ) (2024-02-11T05:17:56Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Control-Tutored Reinforcement Learning: Towards the Integration of
Data-Driven and Model-Based Control [0.0]
本稿では,環境の近似モデルに基づくフィードバックコントローラが学習プロセスを支援し,そのデータ効率を向上させるアーキテクチャを提案する。
このアーキテクチャは、制御チューニングQ-ラーニング(CTQL)と呼ばれ、2つの代替フレーバーで表現される。
前者は報奨関数の定義に基づいて、ブーリアン条件を用いて制御チューターポリシーが採用されるタイミングを決定する。
後者は確率的CTQL(pCTQL)と呼ばれ、学習中に特定の確率でチューターへの呼び出しを実行することに基づいている。
論文 参考訳(メタデータ) (2021-12-11T16:34:36Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。