論文の概要: Learning by Competition of Self-Interested Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2010.09770v3
- Date: Wed, 22 Dec 2021 16:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:47:17.072194
- Title: Learning by Competition of Self-Interested Reinforcement Learning Agents
- Title(参考訳): 自己関心強化学習エージェントの競争による学習
- Authors: Stephen Chung
- Abstract要約: 人工知能ニューラルネットワークは、REINFORCE学習規則を実装したユニットに報酬信号を均一にブロードキャストすることで訓練することができる。
隠れたユニットに対する報酬信号の交換を、ユニットの出力重量の標準である$L2$の変更で提案する。
実験の結果, 最大化学習ネットワークはREINFORCEよりかなり高速に学習でき, バックプロパゲーションよりもわずかに遅いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An artificial neural network can be trained by uniformly broadcasting a
reward signal to units that implement a REINFORCE learning rule. Though this
presents a biologically plausible alternative to backpropagation in training a
network, the high variance associated with it renders it impractical to train
deep networks. The high variance arises from the inefficient structural credit
assignment since a single reward signal is used to evaluate the collective
action of all units. To facilitate structural credit assignment, we propose
replacing the reward signal to hidden units with the change in the $L^2$ norm
of the unit's outgoing weight. As such, each hidden unit in the network is
trying to maximize the norm of its outgoing weight instead of the global
reward, and thus we call this learning method Weight Maximization. We prove
that Weight Maximization is approximately following the gradient of rewards in
expectation. In contrast to backpropagation, Weight Maximization can be used to
train both continuous-valued and discrete-valued units. Moreover, Weight
Maximization solves several major issues of backpropagation relating to
biological plausibility. Our experiments show that a network trained with
Weight Maximization can learn significantly faster than REINFORCE and slightly
slower than backpropagation. Weight Maximization illustrates an example of
cooperative behavior automatically arising from a population of self-interested
agents in a competitive game without any central coordination.
- Abstract(参考訳): 人工知能ニューラルネットワークは、REINFORCE学習規則を実装したユニットに報酬信号を均一にブロードキャストすることで訓練することができる。
これは、ネットワークのトレーニングにおけるバックプロパゲーションの生物学的に妥当な代替手段であるが、それに関連する高いばらつきにより、ディープネットワークのトレーニングは非現実的になる。
高いばらつきは、全てのユニットの集団行動を評価するために単一の報酬信号が使用されるため、非効率な構造的信用割り当てから生じる。
構造的信用割当を容易にするため,隠れた単位に対する報酬信号の交換を,単位の出力重みの$L^2$ノルムの変更により提案する。
そのため、ネットワーク内の各隠れユニットは、グローバルな報酬ではなく、流出重量のノルムを最大化しようとしているため、この学習手法をウェイト最大化(Weight Maximization)と呼ぶ。
重みの最大化は期待に対する報酬の勾配にほぼ従うことが証明される。
バックプロパゲーションとは対照的に、ウェイト最大化は連続値と離散値の両方の単位を訓練するのに使うことができる。
さらに、重みの最大化は、生物学的妥当性に関するバックプロパゲーションのいくつかの主要な問題を解く。
実験の結果, 最大化学習ネットワークはREINFORCEよりかなり高速に学習でき, バックプロパゲーションよりもわずかに遅いことがわかった。
重量最大化(weight maximization)は、中央調整のない競争ゲームにおいて、利己的なエージェントの集団から自動的に発生する協調行動の例を示す。
関連論文リスト
- Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Unbiased Weight Maximization [0.0]
本研究では,Bernolli-logistic Unitのネットワークに対する新たな学習ルールを提案する。
私たちの知る限りでは、これはベルヌーイ・ロジスティック・ユニットのネットワークにおける最初の学習ルールであり、学習速度の点でネットワークのユニット数と不偏であり、スケールする。
論文 参考訳(メタデータ) (2023-07-25T05:45:52Z) - Structural Credit Assignment with Coordinated Exploration [0.0]
構造的信用割当の改善を目的とした方法は、一般的に2つのカテゴリに分類される。
本稿では,ボルツマンマシンやリカレントネットワークを協調探索に用いることを提案する。
実験結果から, 協調探査は訓練速度において, 独立探索をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2023-07-25T04:55:45Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - Hindsight Network Credit Assignment: Efficient Credit Assignment in
Networks of Discrete Stochastic Units [2.28438857884398]
本稿では,個別単位のネットワークを対象とした新しい学習アルゴリズムであるHNCAを提案する。
HNCAは、ネットワーク内の直近の子供に影響を与える程度に基づいて、各ユニットにクレジットを割り当てる。
我々は,HNCAを拡張して,その関数がエージェントに知られている単位のネットワークの出力のより一般的な関数を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-10-14T20:18:38Z) - MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement
Learning Agents [0.0]
ニューラルネットワークをトレーニングする別の方法は、ネットワークの各ユニットを強化学習エージェントとして扱うことである。
本稿では,この分散を著しく低減するMAP伝搬という新しいアルゴリズムを提案する。
当社の作業は、深層強化学習におけるエージェントチームの広範な適用を可能にします。
論文 参考訳(メタデータ) (2020-10-15T17:17:39Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Adversarial Training with Stochastic Weight Average [4.633908654744751]
ディープニューラルネットワークのアドリヤトレーニングは、しばしば深刻なオーバーフィッティング問題を経験する。
従来の機械学習では、データの不足から過度な適合を緩和する1つの方法は、アンサンブルメソッドを使用することである。
本稿では,重み平均(SWA)を用いた対向訓練を提案する。
対人訓練中に,訓練軌跡の時間的重み状態を集計する。
論文 参考訳(メタデータ) (2020-09-21T04:47:20Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。