論文の概要: Coagent Networks: Generalized and Scaled
- arxiv url: http://arxiv.org/abs/2305.09838v1
- Date: Tue, 16 May 2023 22:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:23:29.162292
- Title: Coagent Networks: Generalized and Scaled
- Title(参考訳): Coagent Networks: 一般化とスケール
- Authors: James E. Kostas, Scott M. Jordan, Yash Chandak, Georgios Theocharous,
Dhawal Gupta, Martha White, Bruno Castro da Silva, Philip S. Thomas
- Abstract要約: 強化学習のためのCoagent Network(RL)は、原則学習規則を導出するための強力で柔軟なフレームワークを提供する。
この研究は、過去の研究によって提供される共役理論と学習規則を一般化する。
バックプロパゲーションを使用しないポリシーネットワークを持つコヒーレントアルゴリズムは、挑戦的なRLドメインにスケール可能であることを示す。
- 参考スコア(独自算出の注目度): 44.06183176712763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coagent networks for reinforcement learning (RL) [Thomas and Barto, 2011]
provide a powerful and flexible framework for deriving principled learning
rules for arbitrary stochastic neural networks. The coagent framework offers an
alternative to backpropagation-based deep learning (BDL) that overcomes some of
backpropagation's main limitations. For example, coagent networks can compute
different parts of the network \emph{asynchronously} (at different rates or at
different times), can incorporate non-differentiable components that cannot be
used with backpropagation, and can explore at levels higher than their action
spaces (that is, they can be designed as hierarchical networks for exploration
and/or temporal abstraction). However, the coagent framework is not just an
alternative to BDL; the two approaches can be blended: BDL can be combined with
coagent learning rules to create architectures with the advantages of both
approaches. This work generalizes the coagent theory and learning rules
provided by previous works; this generalization provides more flexibility for
network architecture design within the coagent framework. This work also
studies one of the chief disadvantages of coagent networks: high variance
updates for networks that have many coagents and do not use backpropagation. We
show that a coagent algorithm with a policy network that does not use
backpropagation can scale to a challenging RL domain with a high-dimensional
state and action space (the MuJoCo Ant environment), learning reasonable
(although not state-of-the-art) policies. These contributions motivate and
provide a more general theoretical foundation for future work that studies
coagent networks.
- Abstract(参考訳): coagent networks for reinforcement learning (rl) [thomas and barto, 2011]は、任意の確率的ニューラルネットワークの原則学習ルールを導出するための強力で柔軟なフレームワークを提供する。
coagentフレームワークはバックプロパゲーションベースのディープラーニング(bdl)に代わるもので、バックプロパゲーションの主な制限を克服する。
例えば、Coagent Networkはネットワークの異なる部分(異なるレートまたは異なる時間)を計算でき、バックプロパゲーションでは使用できない非微分可能なコンポーネントを組み込むことができ、アクション空間よりも高いレベル(すなわち、探索や時間的抽象化のための階層的ネットワークとして設計できる)で探索することができる。
しかし、Coagentフレームワークは単にBDLに代わるものではない。この2つのアプローチは、BDLとCoagentの学習ルールを組み合わせることで、両方のアプローチの利点を生かしたアーキテクチャを作成することができる。
この一般化は、coagentフレームワーク内でネットワークアーキテクチャ設計をより柔軟にする。
この研究は、共役ネットワークの主な欠点の1つとして、多くの共役ネットワークを持ち、バックプロパゲーションを使用しないネットワークの高分散更新について研究する。
バックプロパゲーションを使用しないポリシーネットワークを持つコージェントアルゴリズムは、高次元の状態と動作空間(MuJoCo Ant環境)を持つ挑戦的なRLドメインにスケールでき、適切な(最先端ではないが)ポリシーを学習できることを示す。
これらの貢献はコアージェントネットワークを研究する将来の研究の動機となり、より一般的な理論基盤を提供する。
関連論文リスト
- Block-Operations: Using Modular Routing to Improve Compositional Generalization [17.525220958618988]
フィードフォワードニューラルネットワーク(FNN)を強化した新しいアーキテクチャコンポーネントであるMultiplexerを紹介する。
我々は,Multiplexersが強い構成一般化を示すことを実験的に確認した。
論文 参考訳(メタデータ) (2024-08-01T12:28:22Z) - Inter-Cell Network Slicing With Transfer Learning Empowered Multi-Agent
Deep Reinforcement Learning [6.523367518762879]
ネットワークスライシングにより、オペレータは共通の物理インフラ上で多様なアプリケーションを効率的にサポートできる。
ネットワーク展開の恒常的に増大する密度化は、複雑で非自明な細胞間干渉を引き起こす。
複数の深層強化学習(DRL)エージェントを用いたDIRPアルゴリズムを開発し,各セルの資源分配を協調的に最適化する。
論文 参考訳(メタデータ) (2023-06-20T14:14:59Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Coordinated Reinforcement Learning for Optimizing Mobile Networks [6.924083445159127]
数百の協調エージェントを含む複雑なアプリケーションにおいて、協調グラフと強化学習の使い方を示す。
協調強化学習が他の手法より優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-09-30T14:46:18Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Coagent Networks Revisited [10.45819881530349]
共役ネットワークは、強化学習環境で行動を起こすために協力するエージェントの任意のネットワークの概念を定式化する。
まず、共役ネットワークに該当する多種多様な事例について統一的な視点を提供する。
我々は、新しい、直感的な実行パスのアイデアによって実現された、Coagentネットワークにおける実行のルールを形式化する。
論文 参考訳(メタデータ) (2020-01-28T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。