論文の概要: Regularized Off-Policy TD-Learning
- arxiv url: http://arxiv.org/abs/2006.05314v1
- Date: Sat, 6 Jun 2020 20:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:14:30.129919
- Title: Regularized Off-Policy TD-Learning
- Title(参考訳): 正規化オフポリィTDラーニング
- Authors: Bo Liu, Sridhar Mahadevan, Ji Liu
- Abstract要約: RO-TDは計算複雑性の低い値関数のスパース表現を学習することができる。
オフ・ポリティコンバージェンス、スパース特徴選択能力、計算コストの低さを説明するために、様々な実験が提案されている。
- 参考スコア(独自算出の注目度): 20.45607850950105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel $l_1$ regularized off-policy convergent TD-learning method
(termed RO-TD), which is able to learn sparse representations of value
functions with low computational complexity. The algorithmic framework
underlying RO-TD integrates two key ideas: off-policy convergent gradient TD
methods, such as TDC, and a convex-concave saddle-point formulation of
non-smooth convex optimization, which enables first-order solvers and feature
selection using online convex regularization. A detailed theoretical and
experimental analysis of RO-TD is presented. A variety of experiments are
presented to illustrate the off-policy convergence, sparse feature selection
capability and low computational cost of the RO-TD algorithm.
- Abstract(参考訳): 本稿では,計算複雑性の低い値関数のスパース表現を学習可能な,新規な非政治収束型TD学習法(RO-TD)を提案する。
RO-TDの基盤となるアルゴリズムフレームワークは、TDCのような非政治収束勾配TD法と、非滑らかな凸最適化の凸凹サドル点定式化という2つの主要なアイデアを統合している。
RO-TDの詳細な理論的および実験的解析を行った。
ro-tdアルゴリズムのオフ・ポリシー収束,スパース特徴選択能力,計算コストの低さを示すため,様々な実験を行った。
関連論文リスト
- Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation [5.152147416671501]
本稿では,線形関数近似,オフポリシー学習,ブートストラッピングを特徴とする多段階TD学習アルゴリズムを解析する。
2つのnステップのTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習とみなすことができる。
論文 参考訳(メタデータ) (2024-02-24T10:42:50Z) - Energy-Guided Continuous Entropic Barycenter Estimation for General Costs [95.33926437521046]
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
本手法は、弱いOTに基づくEOT問題の二重再構成に基づいている。
論文 参考訳(メタデータ) (2023-10-02T11:24:36Z) - A primal-dual perspective for distributed TD-learning [7.871657629581001]
本研究の目的は,ネットワーク型マルチエージェントマルコフ決定プロセスにおける分散時間差(TD)学習について検討することである。
提案手法は分散最適化アルゴリズムに基づいており、これはヌル空間制約を受ける原始双対常微分方程式(ODE)の力学として解釈できる。
論文 参考訳(メタデータ) (2023-10-01T10:38:46Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。