論文の概要: Can Temporal-Difference and Q-Learning Learn Representation? A
Mean-Field Theory
- arxiv url: http://arxiv.org/abs/2006.04761v1
- Date: Mon, 8 Jun 2020 17:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:35:32.582623
- Title: Can Temporal-Difference and Q-Learning Learn Representation? A
Mean-Field Theory
- Title(参考訳): 時間差とQ学習は表現を学習できるか?
平均場の理論
- Authors: Yufeng Zhang, Qi Cai, Zhuoran Yang, Yongxin Chen, Zhaoran Wang
- Abstract要約: 時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
- 参考スコア(独自算出の注目度): 117.82588669343387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal-difference and Q-learning play a key role in deep reinforcement
learning, where they are empowered by expressive nonlinear function
approximators such as neural networks. At the core of their empirical successes
is the learned feature representation, which embeds rich observations, e.g.,
images and texts, into the latent space that encodes semantic structures.
Meanwhile, the evolution of such a feature representation is crucial to the
convergence of temporal-difference and Q-learning.
In particular, temporal-difference learning converges when the function
approximator is linear in a feature representation, which is fixed throughout
learning, and possibly diverges otherwise. We aim to answer the following
questions: When the function approximator is a neural network, how does the
associated feature representation evolve? If it converges, does it converge to
the optimal one?
We prove that, utilizing an overparameterized two-layer neural network,
temporal-difference and Q-learning globally minimize the mean-squared projected
Bellman error at a sublinear rate. Moreover, the associated feature
representation converges to the optimal one, generalizing the previous analysis
of Cai et al. (2019) in the neural tangent kernel regime, where the associated
feature representation stabilizes at the initial one. The key to our analysis
is a mean-field perspective, which connects the evolution of a
finite-dimensional parameter to its limiting counterpart over an
infinite-dimensional Wasserstein space. Our analysis generalizes to soft
Q-learning, which is further connected to policy gradient.
- Abstract(参考訳): 時間差とq学習は、ニューラルネットワークのような表現力のある非線形関数近似子によって強化される深層強化学習において重要な役割を果たす。
彼らの経験的成功の核心は、画像やテキストのような豊富な観察を意味構造をエンコードする潜在空間に埋め込む、学習された特徴表現である。
一方、そのような特徴表現の進化は、時間差とq学習の収束に不可欠である。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
関数近似器がニューラルネットワークであるとき、関連する特徴表現はどのように進化しますか?
もし収束すれば、最適なものに収束するだろうか?
過パラメータの2層ニューラルネットワークを用いて,時間差とq学習により,平均二乗射影ベルマン誤差をサブリニアレートでグローバルに最小化する。
さらに、関連する特徴表現は最適に収束し、関連する特徴表現が初期で安定化する神経タンジェント核状態において、Cai et al. (2019) の以前の解析を一般化する。
解析の鍵は平均場的視点であり、有限次元パラメータの進化と無限次元ワッセルシュタイン空間上の極限的パラメータの進化をつなぐものである。
我々の分析は、政策勾配にさらに結びついているソフトQ-ラーニングに一般化する。
関連論文リスト
- A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Toward Understanding the Feature Learning Process of Self-supervised
Contrastive Learning [43.504548777955854]
本研究では,その特徴学習過程を解析することにより,ニューラルネットワークの特徴表現のコントラスト学習について検討する。
textbfReLUネットワークを用いたコントラスト学習は、適切な拡張が採用されれば、所望のスパース特徴を確実に学習できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T16:42:09Z) - Ensemble perspective for understanding temporal credit assignment [1.9843222704723809]
繰り返しニューラルネットワークにおける各接続は、正確な重み値ではなく、スパイクとスラブの分布によってモデル化されていることを示す。
本モデルでは,ネットワーク全体の性能を決定する重要な接続を明らかにする。
したがって、再帰的なニューラルネットワークにおける時間的クレジット割り当てをアンサンブルの観点から研究することを約束している。
論文 参考訳(メタデータ) (2021-02-07T08:14:05Z) - Geometry Perspective Of Estimating Learning Capability Of Neural
Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。
一般化能力とニューラルネットワークの安定性との関係についても論じている。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文 参考訳(メタデータ) (2020-11-03T12:03:19Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - UNIPoint: Universally Approximating Point Processes Intensities [125.08205865536577]
学習可能な関数のクラスが任意の有効な強度関数を普遍的に近似できることを示す。
ニューラルポイントプロセスモデルであるUNIPointを実装し,各イベントの基底関数の和をパラメータ化するために,リカレントニューラルネットワークを用いた。
論文 参考訳(メタデータ) (2020-07-28T09:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。