Fugu-MT 論文翻訳(概要): An Adiabatic Theorem for Policy Tracking with TD-learning

論文の概要: An Adiabatic Theorem for Policy Tracking with TD-learning

arxiv url: http://arxiv.org/abs/2010.12848v2
Date: Fri, 30 Oct 2020 20:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 12:25:59.211838
Title: An Adiabatic Theorem for Policy Tracking with TD-learning
Title（参考訳）: TD学習による政策追跡のためのアディバティック理論
Authors: Neil Walton
Abstract要約: 本研究では、時間とともに変化する政策の報酬関数を追跡するための時間差学習の能力を評価する。この結果は、時間的不均一なマルコフ鎖の混合時間を束縛する新しい断熱定理を適用している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We evaluate the ability of temporal difference learning to track the reward function of a policy as it changes over time. Our results apply a new adiabatic theorem that bounds the mixing time of time-inhomogeneous Markov chains. We derive finite-time bounds for tabular temporal difference learning and $Q$-learning when the policy used for training changes in time. To achieve this, we develop bounds for stochastic approximation under asynchronous adiabatic updates.
Abstract（参考訳）: 本研究では、時間とともに変化する政策の報酬関数を追跡するための時間差学習能力を評価する。この結果は、時間的不均一なマルコフ鎖の混合時間を束縛する新しい断熱定理を適用する。トレーニングに使用するポリシが時間とともに変化する場合,テーブル型時間差学習と$q$-learningの有限時間境界を導出する。これを実現するために,非同期断熱更新の下で確率近似のバウンダリを開発する。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Pausing Policy Learning in Non-stationary Reinforcement Learning [23.147618992106867]
意思決定を継続的に更新することは、時間的ギャップを最小限にするために最適である、という共通の信念に取り組む。我々は,オンライン強化学習フレームワークの予測を提案し,戦略的に混乱した意思決定の更新により,全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-05-25T04:38:09Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
The Statistical Benefits of Quantile Temporal-Difference Learning for Value Estimation [53.53493178394081]
我々は、分散強化学習アルゴリズムQTD(Quantile temporal-Difference Learning)を用いて分析する。たとえ実践者が平均を超えるリターン分布に関心がなかったとしても、QTDは古典的なTD学習のような手法よりも優れたパフォーマンスを提供するかもしれない。
論文参考訳（メタデータ） (2023-05-28T10:52:46Z)
Anytime-valid off-policy inference for contextual bandits [34.721189269616175]
コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-19T17:57:53Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文参考訳（メタデータ） (2022-03-24T01:04:17Z)
Temporal Difference Learning with Continuous Time and State in the Stochastic Setting [0.0]
継続的政策評価の問題点を考察する。これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
論文参考訳（メタデータ） (2022-02-16T10:10:53Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Faster Policy Learning with Continuous-Time Gradients [6.457260875902829]
既知のダイナミクスを有する連続時間システムにおけるポリシー勾配の推定について検討する。ポリシー学習を連続的に行うことで、より効率的で正確な勾配推定器を構築できることを示す。
論文参考訳（メタデータ） (2020-12-12T00:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。