論文の概要: Dynamics of Temporal Difference Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.04841v1
- Date: Mon, 10 Jul 2023 18:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 17:23:06.862748
- Title: Dynamics of Temporal Difference Reinforcement Learning
- Title(参考訳): 時間差強化学習のダイナミクス
- Authors: Blake Bordelon, Paul Masset, Henry Kuo, Cengiz Pehlevan
- Abstract要約: 線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
- 参考スコア(独自算出の注目度): 13.76408511310322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has been successful across several applications in
which agents have to learn to act in environments with sparse feedback.
However, despite this empirical success there is still a lack of theoretical
understanding of how the parameters of reinforcement learning models and the
features used to represent states interact to control the dynamics of learning.
In this work, we use concepts from statistical physics, to study the typical
case learning curves for temporal difference learning of a value function with
linear function approximators. Our theory is derived under a Gaussian
equivalence hypothesis where averages over the random trajectories are replaced
with temporally correlated Gaussian feature averages and we validate our
assumptions on small scale Markov Decision Processes. We find that the
stochastic semi-gradient noise due to subsampling the space of possible
episodes leads to significant plateaus in the value error, unlike in
traditional gradient descent dynamics. We study how learning dynamics and
plateaus depend on feature structure, learning rate, discount factor, and
reward function. We then analyze how strategies like learning rate annealing
and reward shaping can favorably alter learning dynamics and plateaus. To
conclude, our work introduces new tools to open a new direction towards
developing a theory of learning dynamics in reinforcement learning.
- Abstract(参考訳): 強化学習は、エージェントがスパースフィードバックで環境で行動することを学ばなければならないいくつかのアプリケーションで成功している。
しかし、この経験的な成功にもかかわらず、強化学習モデルのパラメータと状態を表すのに使われる特徴が学習のダイナミクスを制御するためにどのように相互作用するかの理論的な理解が不足している。
本研究では,統計物理学の概念を用いて,線形関数近似子を用いた値関数の時間差学習のための典型的な事例学習曲線を考察する。
我々の理論は、ランダム軌道上の平均を時間的に相関したガウス特徴平均に置き換えるガウス同値仮説に基づいて導出され、小規模マルコフ決定過程における仮定を検証する。
従来の勾配降下力学とは異なり,考えられるエピソードの空間のサブサンプリングによる確率的半勾配雑音は,値誤差の顕著な高次化をもたらすことがわかった。
学習のダイナミクスと高原は,特徴構造,学習率,割引率,報酬関数にどのように依存するかを検討した。
次に学習率アニーリングや報酬シェーピングといった戦略が学習のダイナミクスや高原をどのように変えるかを分析する。
本研究は,強化学習における学習動力学の理論の展開に向けた新たな方向性を開くための新しいツールを提案する。
関連論文リスト
- Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Bayesian Learning for Dynamic Inference [2.2843885788439793]
いくつかの逐次推定問題では、推定される量の将来値は、その現在の値の推定に依存する。
本研究では,未知量生成モデルがランダムに描画されることを前提として,動的推論のためのベイズ学習問題を定式化する。
我々は、推論損失を最小限に抑えるために、オフラインとオンラインの両方で最適なベイズ学習ルールを導出する。
論文 参考訳(メタデータ) (2022-12-30T19:16:23Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Supervised Learning in the Presence of Concept Drift: A modelling
framework [5.22609266390809]
非定常環境における教師あり学習の研究のためのモデリングフレームワークを提案する。
学習システムの例として、分類のためのプロトタイプベースの学習ベクトル量子化(LVQ)と回帰タスクのための浅層ニューラルネットワークをモデル化する。
論文 参考訳(メタデータ) (2020-05-21T09:13:58Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。