Fugu-MT 論文翻訳(概要): Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates

論文の概要: Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates

arxiv url: http://arxiv.org/abs/2110.14818v1
Date: Thu, 28 Oct 2021 00:07:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-30 08:37:19.665955
Title: Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates
Title（参考訳）: 不確かさ誘導型ソフトアップデートによる時間差値推定
Authors: Litian Liang, Yaosheng Xu, Stephen McAleer, Dailin Hu, Alexander Ihler, Pieter Abbeel, Roy Fox
Abstract要約: Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。 UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
参考スコア（独自算出の注目度）: 110.92598350897192
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal-Difference (TD) learning methods, such as Q-Learning, have proven effective at learning a policy to perform control tasks. One issue with methods like Q-Learning is that the value update introduces bias when predicting the TD target of a unfamiliar state. Estimation noise becomes a bias after the max operator in the policy improvement step, and carries over to value estimations of other states, causing Q-Learning to overestimate the Q value. Algorithms like Soft Q-Learning (SQL) introduce the notion of a soft-greedy policy, which reduces the estimation bias via soft updates in early stages of training. However, the inverse temperature $\beta$ that controls the softness of an update is usually set by a hand-designed heuristic, which can be inaccurate at capturing the uncertainty in the target estimate. Under the belief that $\beta$ is closely related to the (state dependent) model uncertainty, Entropy Regularized Q-Learning (EQL) further introduces a principled scheduling of $\beta$ by maintaining a collection of the model parameters that characterizes model uncertainty. In this paper, we present Unbiased Soft Q-Learning (UQL), which extends the work of EQL from two action, finite state spaces to multi-action, infinite state space Markov Decision Processes. We also provide a principled numerical scheduling of $\beta$, extended from SQL and using model uncertainty, during the optimization process. We show the theoretical guarantees and the effectiveness of this update method in experiments on several discrete control environments.
Abstract（参考訳）: 時間変化(td)学習法(q-learning)は、制御タスクを実行するポリシーの学習に有効であることが証明されている。 Q-Learningのような手法の1つの問題は、値更新が不慣れな状態のTDターゲットを予測するときにバイアスをもたらすことである。評価ノイズは、政策改善ステップにおける最大演算子の後バイアスとなり、他の状態の値推定に受け継がれ、Q-LearningはQ値を過大評価する。ソフトqラーニング(sql)のようなアルゴリズムは、トレーニングの初期段階におけるソフトアップデートによる推定バイアスを減らすソフトグリーディポリシの概念を導入している。しかし、更新の柔らかさを制御する逆温度$\beta$は、通常手設計のヒューリスティックによって設定される。 Entropy Regularized Q-Learning (EQL)は、$\beta$が(状態依存)モデルの不確実性と密接に関連しているという信念の下で、モデルの不確実性を特徴づけるモデルのパラメータの集合を維持することによって、$\beta$の原則的なスケジューリングを導入する。本稿では,Unbiased Soft Q-Learning (UQL)を提案する。これは,EQLの動作を2つの作用,有限状態空間から多作用,無限状態空間,マルコフ決定過程まで拡張する。また、最適化プロセス中にsqlから拡張されモデル不確実性を使用する$\beta$の原則付き数値スケジューリングも提供します。いくつかの個別制御環境における実験において,この更新手法の理論的保証と有効性を示す。

関連論文リスト

Provably Efficient and Agile Randomized Q-Learning [35.14581235983678]
我々は、サンプリングベースの探索をアジャイル、ステップワイド、ポリシー更新と統合した新しいQ-ラーニングアルゴリズムをRandomizedQと呼ぶ。経験的に、RandomizedQは、ボーナスベースとベイズベースで標準ベンチマークを探索する既存のQラーニングモデルと比較して、優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-06-30T16:08:29Z)
Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。 TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文参考訳（メタデータ） (2024-11-21T11:03:07Z)
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。 2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文参考訳（メタデータ） (2024-05-03T15:57:26Z)
A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文参考訳（メタデータ） (2023-12-12T19:24:35Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。 Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-28T08:30:01Z)
Control-Tutored Reinforcement Learning: Towards the Integration of Data-Driven and Model-Based Control [0.0]
本稿では,環境の近似モデルに基づくフィードバックコントローラが学習プロセスを支援し,そのデータ効率を向上させるアーキテクチャを提案する。このアーキテクチャは、制御チューニングQ-ラーニング(CTQL)と呼ばれ、2つの代替フレーバーで表現される。前者は報奨関数の定義に基づいて、ブーリアン条件を用いて制御チューターポリシーが採用されるタイミングを決定する。後者は確率的CTQL(pCTQL)と呼ばれ、学習中に特定の確率でチューターへの呼び出しを実行することに基づいている。
論文参考訳（メタデータ） (2021-12-11T16:34:36Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文参考訳（メタデータ） (2021-09-22T13:49:35Z)
Task-Specific Normalization for Continual Learning of Blind Image Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文参考訳（メタデータ） (2021-07-28T15:21:01Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。