論文の概要: Temporal-Difference Learning Using Distributed Error Signals
- arxiv url: http://arxiv.org/abs/2411.03604v1
- Date: Wed, 06 Nov 2024 01:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:50.873379
- Title: Temporal-Difference Learning Using Distributed Error Signals
- Title(参考訳): 分散誤差信号を用いた時間差学習
- Authors: Jonas Guan, Shon Eduard Verch, Claas Voelcker, Ethan C. Jackson, Nicolas Papernot, William A. Cunningham,
- Abstract要約: 生物学的報酬に基づく学習における計算問題は、原子核アキュムベンス(NAc)におけるクレジット割り当てがどのように行われるかである
多くの研究は、NAcドパミンが学習価値予測のための時間差誤差(TD)を符号化していることを示唆している。
我々は新しい深層Q-ラーニングアルゴリズムであるArtificial Dopamineを設計し、同期に分散された層ごとのTDエラーが驚くほど複雑なRLタスクを学習するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 28.863060403100047
- License:
- Abstract: A computational problem in biological reward-based learning is how credit assignment is performed in the nucleus accumbens (NAc). Much research suggests that NAc dopamine encodes temporal-difference (TD) errors for learning value predictions. However, dopamine is synchronously distributed in regionally homogeneous concentrations, which does not support explicit credit assignment (like used by backpropagation). It is unclear whether distributed errors alone are sufficient for synapses to make coordinated updates to learn complex, nonlinear reward-based learning tasks. We design a new deep Q-learning algorithm, Artificial Dopamine, to computationally demonstrate that synchronously distributed, per-layer TD errors may be sufficient to learn surprisingly complex RL tasks. We empirically evaluate our algorithm on MinAtar, the DeepMind Control Suite, and classic control tasks, and show it often achieves comparable performance to deep RL algorithms that use backpropagation.
- Abstract(参考訳): 生物学的報酬に基づく学習における計算問題は、原子核のアキュムベン(NAc)におけるクレジットの割り当てがどのように行われるかである。
多くの研究は、NAcドパミンが学習価値予測のための時間差誤差(TD)を符号化していることを示唆している。
しかし、ドーパミンは局所的に均一な濃度で同期的に分布し、(バックプロパゲーションで用いられるように)明示的なクレジット割り当てをサポートしない。
分散エラーだけでは、複雑な非線形報酬に基づく学習タスクを学習するために協調的な更新を行うのに十分なかどうかは不明である。
我々は新しい深層Q-ラーニングアルゴリズムであるArtificial Dopamineを設計し、同期に分散された層ごとのTDエラーが驚くほど複雑なRLタスクを学習するのに十分であることを示す。
我々は、MinAtar、DeepMind Control Suite、そして古典的な制御タスクにおいて、我々のアルゴリズムを実証的に評価し、バックプロパゲーションを使用するディープRLアルゴリズムに匹敵する性能を示す。
関連論文リスト
- SGD method for entropy error function with smoothing l0 regularization for neural networks [3.108634881604788]
エントロピー誤差関数はニューラルネットワークで広く使われている。
本稿では,フィードフォワードニューラルネットワークの規則化を円滑に行うエントロピー関数を提案する。
ニューラルネットワークを効果的に学習し、より正確な予測を可能にするため、私たちの仕事は新しくなっています。
論文 参考訳(メタデータ) (2024-05-28T19:54:26Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - Unmatched uncertainty mitigation through neural network supported model
predictive control [7.036452261968766]
学習ベースMPC(LBMPC)の基本最適化問題において,深層ニューラルネットワーク(DNN)をオラクルとして利用する。
我々は、ニューラルネットワークの最後のレイヤの重みをリアルタイムで更新するデュアル・タイムスケール適応機構を採用している。
その結果,提案手法はリアルタイムに実装可能であり,LBMPCの理論的保証を担っていることがわかった。
論文 参考訳(メタデータ) (2023-04-22T04:49:48Z) - DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning [5.2319020651074215]
ニューラル予測器(DCLP)のためのカリキュラム誘導型コントラスト学習フレームワークを提案する。
本手法は,新たなカリキュラムを設計し,ラベルのないトレーニングデータ分布の安定性を高めることで,対照的なタスクを単純化する。
我々は既存の予測器と比較してDCLPの精度と効率が優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-25T08:16:21Z) - Online Attentive Kernel-Based Temporal Difference Learning [13.94346725929798]
オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。
オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。
2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
論文 参考訳(メタデータ) (2022-01-22T14:47:10Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。