論文の概要: Online Attentive Kernel-Based Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2201.09065v1
- Date: Sat, 22 Jan 2022 14:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:41:18.296011
- Title: Online Attentive Kernel-Based Temporal Difference Learning
- Title(参考訳): オンライン注意型カーネルベース時間差学習
- Authors: Guang Yang, Xingguo Chen, Shangdong Yang, Huihui Wang, Shaokang Dong,
Yang Gao
- Abstract要約: オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。
オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。
2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
- 参考スコア(独自算出の注目度): 13.94346725929798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With rising uncertainty in the real world, online Reinforcement Learning (RL)
has been receiving increasing attention due to its fast learning capability and
improving data efficiency. However, online RL often suffers from complex Value
Function Approximation (VFA) and catastrophic interference, creating difficulty
for the deep neural network to be applied to an online RL algorithm in a fully
online setting. Therefore, a simpler and more adaptive approach is introduced
to evaluate value function with the kernel-based model. Sparse representations
are superior at handling interference, indicating that competitive sparse
representations should be learnable, non-prior, non-truncated and explicit when
compared with current sparse representation methods. Moreover, in learning
sparse representations, attention mechanisms are utilized to represent the
degree of sparsification, and a smooth attentive function is introduced into
the kernel-based VFA. In this paper, we propose an Online Attentive
Kernel-Based Temporal Difference (OAKTD) algorithm using two-timescale
optimization and provide convergence analysis of our proposed algorithm.
Experimental evaluations showed that OAKTD outperformed several Online
Kernel-based Temporal Difference (OKTD) learning algorithms in addition to the
Temporal Difference (TD) learning algorithm with Tile Coding on public Mountain
Car, Acrobot, CartPole and Puddle World tasks.
- Abstract(参考訳): 現実世界の不確実性が高まっている中、オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目を集めている。
しかし、オンラインrlは複雑な値関数近似(vfa)と破滅的な干渉に苦しむことが多く、ディープニューラルネットワークがオンラインrlアルゴリズムに完全にオンライン環境で適用されることは困難である。
したがって、カーネルモデルを用いて値関数を評価するため、より単純で適応的なアプローチが導入された。
スパース表現は干渉処理に優れており、現在のスパース表現法と比較した場合、競合スパース表現は学習可能、非優先度、非トランケート、明示的であることが示されている。
さらに、スパース表現の学習において、注意機構を用いてスペース化の程度を表現し、カーネルベースのVFAにスムーズな注意関数を導入する。
本稿では,2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)アルゴリズムを提案し,提案アルゴリズムの収束解析を行う。
実験により、OAKTDは、Tile Codingを用いたTD学習アルゴリズムに加えて、オンラインカーネルベースの時間差(OKTD)学習アルゴリズムと、パブリックマウンテンカー、Acrobot、CartPole、Puddle Worldタスクを比較検討した。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。
本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。
提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文 参考訳(メタデータ) (2023-02-20T10:06:49Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Online Deterministic Annealing for Classification and Clustering [0.0]
本稿では,クラスタリングと分類のためのオンラインプロトタイプベースの学習アルゴリズムを提案する。
本稿では,提案アルゴリズムが競合学習ニューラルネットワークを構成することを示し,その学習規則をオンライン近似アルゴリズムとして定式化する。
論文 参考訳(メタデータ) (2021-02-11T04:04:21Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。