論文の概要: Structural Credit Assignment with Coordinated Exploration
- arxiv url: http://arxiv.org/abs/2307.13256v1
- Date: Tue, 25 Jul 2023 04:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:14:06.329408
- Title: Structural Credit Assignment with Coordinated Exploration
- Title(参考訳): 協調探査による構造クレジット割り当て
- Authors: Stephen Chung
- Abstract要約: 構造的信用割当の改善を目的とした方法は、一般的に2つのカテゴリに分類される。
本稿では,ボルツマンマシンやリカレントネットワークを協調探索に用いることを提案する。
実験結果から, 協調探査は訓練速度において, 独立探索をはるかに上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A biologically plausible method for training an Artificial Neural Network
(ANN) involves treating each unit as a stochastic Reinforcement Learning (RL)
agent, thereby considering the network as a team of agents. Consequently, all
units can learn via REINFORCE, a local learning rule modulated by a global
reward signal, which aligns more closely with biologically observed forms of
synaptic plasticity. However, this learning method tends to be slow and does
not scale well with the size of the network. This inefficiency arises from two
factors impeding effective structural credit assignment: (i) all units
independently explore the network, and (ii) a single reward is used to evaluate
the actions of all units. Accordingly, methods aimed at improving structural
credit assignment can generally be classified into two categories. The first
category includes algorithms that enable coordinated exploration among units,
such as MAP propagation. The second category encompasses algorithms that
compute a more specific reward signal for each unit within the network, like
Weight Maximization and its variants. In this research report, our focus is on
the first category. We propose the use of Boltzmann machines or a recurrent
network for coordinated exploration. We show that the negative phase, which is
typically necessary to train Boltzmann machines, can be removed. The resulting
learning rules are similar to the reward-modulated Hebbian learning rule.
Experimental results demonstrate that coordinated exploration significantly
exceeds independent exploration in training speed for multiple stochastic and
discrete units based on REINFORCE, even surpassing straight-through estimator
(STE) backpropagation.
- Abstract(参考訳): ニューラルネットワーク(ANN)をトレーニングするための生物学的に妥当な方法は、各ユニットを確率的強化学習(RL)エージェントとして扱うことにより、ネットワークをエージェントチームとして考慮する。
その結果、すべてのユニットは、地球規模の報酬信号によって変調された局所学習規則であるREINFORCEを通じて学習することができる。
しかし、この学習方法は遅い傾向にあり、ネットワークのサイズほどスケールしない。
この非効率性は、効果的な構造的信用割り当てを妨げる2つの要因から生じる。
(i)全ユニットが独立してネットワークを探索し、
(ii)全ての単位の動作を評価するために単一の報酬が用いられる。
したがって、構造的信用割り当てを改善するための方法は、一般的に2つのカテゴリに分類できる。
第1のカテゴリはMAP伝搬のようなユニット間の協調的な探索を可能にするアルゴリズムを含んでいる。
第2のカテゴリは、ネットワーク内の各ユニットに対してより具体的な報酬信号を計算するアルゴリズムを含んでいる。
本研究報告では,第一のカテゴリーに焦点をあてる。
本稿では,ボルツマンマシンやリカレントネットワークを用いた協調探索を提案する。
ボルツマン機械を訓練するのに通常必要となる負位相を除去できることが示される。
学習規則は報酬変調されたヘビアン学習規則と似ている。
実験の結果,ste (sright-through estimator) のバックプロパゲーションを上回っても,複数の確率的単位と離散単位の訓練速度において,協調探索は独立探索を大きく上回ることがわかった。
関連論文リスト
- Unbiased Weight Maximization [0.0]
本研究では,Bernolli-logistic Unitのネットワークに対する新たな学習ルールを提案する。
私たちの知る限りでは、これはベルヌーイ・ロジスティック・ユニットのネットワークにおける最初の学習ルールであり、学習速度の点でネットワークのユニット数と不偏であり、スケールする。
論文 参考訳(メタデータ) (2023-07-25T05:45:52Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning Modular Structures That Generalize Out-of-Distribution [1.7034813545878589]
本稿では、O.O.D.の一般化手法について述べる。トレーニングを通じて、複数のトレーニング領域にまたがってよく再利用されるネットワークの機能のみをモデルが保持することを奨励する。
本手法は,2つの相補的ニューロンレベル正規化器とネットワーク上の確率的微分可能なバイナリマスクを組み合わせることで,元のネットワークよりも優れたO.O.D.性能を実現するモジュールサブネットワークを抽出する。
論文 参考訳(メタデータ) (2022-08-07T15:54:19Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Training Generative Adversarial Networks in One Stage [58.983325666852856]
本稿では,1段階のみに効率よくGANを訓練できる汎用的なトレーニング手法を提案する。
提案手法は,データフリーな知識蒸留など,他の逆学習シナリオにも容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-02-28T09:03:39Z) - Learning by Competition of Self-Interested Reinforcement Learning Agents [0.0]
人工知能ニューラルネットワークは、REINFORCE学習規則を実装したユニットに報酬信号を均一にブロードキャストすることで訓練することができる。
隠れたユニットに対する報酬信号の交換を、ユニットの出力重量の標準である$L2$の変更で提案する。
実験の結果, 最大化学習ネットワークはREINFORCEよりかなり高速に学習でき, バックプロパゲーションよりもわずかに遅いことがわかった。
論文 参考訳(メタデータ) (2020-10-19T18:18:53Z) - MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement
Learning Agents [0.0]
ニューラルネットワークをトレーニングする別の方法は、ネットワークの各ユニットを強化学習エージェントとして扱うことである。
本稿では,この分散を著しく低減するMAP伝搬という新しいアルゴリズムを提案する。
当社の作業は、深層強化学習におけるエージェントチームの広範な適用を可能にします。
論文 参考訳(メタデータ) (2020-10-15T17:17:39Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。