論文の概要: Interference and Generalization in Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2003.06350v1
- Date: Fri, 13 Mar 2020 15:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:14:02.004925
- Title: Interference and Generalization in Temporal Difference Learning
- Title(参考訳): 時間差学習における干渉と一般化
- Authors: Emmanuel Bengio, Joelle Pineau, Doina Precup
- Abstract要約: 時間差学習における一般化と干渉の関係について検討する。
教師付き学習ではTDが容易に低干渉,低一般化パラメータにつながり,その効果は逆のように見える。
- 参考スコア(独自算出の注目度): 86.31598155056035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the link between generalization and interference in
temporal-difference (TD) learning. Interference is defined as the inner product
of two different gradients, representing their alignment. This quantity emerges
as being of interest from a variety of observations about neural networks,
parameter sharing and the dynamics of learning. We find that TD easily leads to
low-interference, under-generalizing parameters, while the effect seems
reversed in supervised learning. We hypothesize that the cause can be traced
back to the interplay between the dynamics of interference and bootstrapping.
This is supported empirically by several observations: the negative
relationship between the generalization gap and interference in TD, the
negative effect of bootstrapping on interference and the local coherence of
targets, and the contrast between the propagation rate of information in TD(0)
versus TD($\lambda$) and regression tasks such as Monte-Carlo policy
evaluation. We hope that these new findings can guide the future discovery of
better bootstrapping methods.
- Abstract(参考訳): 時間差学習における一般化と干渉の関係について検討する。
干渉は2つの異なる勾配の内積として定義され、それらのアライメントを表す。
この量は、ニューラルネットワーク、パラメータ共有、学習のダイナミクスに関するさまざまな観察から、興味深いものとして現れます。
教師付き学習ではTDが容易に低干渉,低一般化パラメータにつながり,その効果は逆のように見える。
原因は、干渉とブートストラップのダイナミクスの間の相互作用に遡ることができると仮定した。
一般化ギャップとtdの干渉の負の関係、ブートストラップによる干渉とターゲットの局所的コヒーレンスに対する負の影響、td(0) と td($\lambda$) における情報の伝播速度とモンテカルロ政策評価のような回帰タスクとの対比。
これらの新たな発見が、より優れたブートストラップ手法の発見を導くことを願っている。
関連論文リスト
- Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features [68.3512123520931]
深層ニューラルネットワーク(DNN)学習相互作用のダイナミクスについて検討する。
本稿では,DNNが2段階の相互作用を学習していることを明らかにする。
第1相は主に中位と高位の相互作用を罰し、第2相は徐々に増加する順序の相互作用を学習する。
論文 参考訳(メタデータ) (2024-05-16T17:13:25Z) - Controllable Relation Disentanglement for Few-Shot Class-Incremental Learning [82.79371269942146]
本稿では,FewShot Class-Incremental Learning (FSCIL) を新たな視点,すなわち関係の絡み合いから扱うことを提案する。
急激な相関関係を切り離すことの課題は、FSCILの制御性が悪いことである。
我々は、CTRL-FSCIL(Controllable Relation-disentang FewShot Class-Incremental Learning)と呼ばれる、新しいシンプルな効果のある手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T03:16:59Z) - Distal Interference: Exploring the Limits of Model-Based Continual
Learning [0.0]
継続的な学習は破滅的な干渉や忘れによって妨げられる。
実際に成功したにもかかわらず、人工知能ニューラルネットワーク(ANN)は破滅的な干渉を起こしやすい。
複雑性モデルによる連続的な学習には、トレーニングデータやアルゴリズムの強化が必要であると推測されている。
論文 参考訳(メタデータ) (2024-02-13T07:07:37Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Measuring and Mitigating Interference in Reinforcement Learning [30.38857177546063]
破滅的な干渉は、多くのネットワークベースの学習システムで一般的である。
価値に基づく強化学習のための干渉の定義と新しい尺度を提供する。
論文 参考訳(メタデータ) (2023-07-10T20:20:20Z) - Neighborhood Adaptive Estimators for Causal Inference under Network
Interference [152.4519491244279]
我々は,古典的非干渉仮説の違反を考える。つまり,ある個人に対する治療が他者の結果に影響を及ぼす可能性がある。
干渉をトラクタブルにするために、干渉がどのように進行するかを記述する既知のネットワークを考える。
このような環境下での処理に対する平均的直接的処理効果の予測について検討した。
論文 参考訳(メタデータ) (2022-12-07T14:53:47Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Interpreting Deep Neural Networks with Relative Sectional Propagation by
Analyzing Comparative Gradients and Hostile Activations [37.11665902583138]
DNN(Deep Neural Networks)の出力予測を分解するための新しいアトリビューション手法であるRelative Sectional Propagation(RSP)を提案する。
我々は、敵対的因子をターゲットの属性を見つけるのを妨げる要素として定義し、活性化ニューロンの非抑制的な性質を克服するために区別可能な方法でそれを伝播させる。
本手法により,従来の帰属法と比較して,DNNのクラス識別性や活性化ニューロンの詳細な解明により,DNNの予測を分解することができる。
論文 参考訳(メタデータ) (2020-12-07T03:11:07Z) - A Unified Approach to Interpreting and Boosting Adversarial
Transferability [42.33597623865435]
本稿では, 対向的摂動の相互作用を用いて, 対向的伝達性を説明し, 促進する。
本研究は, 対向移動可能性と対向摂動の相互作用との負の相関を証明し, 証明する。
本稿では,攻撃過程における相互作用のペナルティ化を提案する。
論文 参考訳(メタデータ) (2020-10-08T15:19:22Z) - Towards a practical measure of interference for reinforcement learning [37.1734757628306]
破滅的な干渉は、多くのネットワークベースの学習システムで一般的である。
強化学習における制御のための干渉の定義を提供する。
我々の新しい干渉対策は、一般的に使われているディープラーニングアーキテクチャについて、新しい科学的疑問を提起することを可能にする。
論文 参考訳(メタデータ) (2020-07-07T22:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。