論文の概要: Coagent Networks Revisited
- arxiv url: http://arxiv.org/abs/2001.10474v3
- Date: Wed, 30 Aug 2023 00:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 18:32:09.638024
- Title: Coagent Networks Revisited
- Title(参考訳): coagentネットワークの再訪
- Authors: Modjtaba Shokrian Zini, Mohammad Pedramfar, Matthew Riemer, Ahmadreza
Moradipari, Miao Liu
- Abstract要約: 共役ネットワークは、強化学習環境で行動を起こすために協力するエージェントの任意のネットワークの概念を定式化する。
まず、共役ネットワークに該当する多種多様な事例について統一的な視点を提供する。
我々は、新しい、直感的な実行パスのアイデアによって実現された、Coagentネットワークにおける実行のルールを形式化する。
- 参考スコア(独自算出の注目度): 10.45819881530349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coagent networks formalize the concept of arbitrary networks of stochastic
agents that collaborate to take actions in a reinforcement learning
environment. Prominent examples of coagent networks in action include
approaches to hierarchical reinforcement learning (HRL), such as those using
options, which attempt to address the exploration exploitation trade-off by
introducing abstract actions at different levels by sequencing multiple
stochastic networks within the HRL agents. We first provide a unifying
perspective on the many diverse examples that fall under coagent networks. We
do so by formalizing the rules of execution in a coagent network, enabled by
the novel and intuitive idea of execution paths in a coagent network. Motivated
by parameter sharing in the hierarchical option-critic architecture, we revisit
the coagent network theory and achieve a much shorter proof of the policy
gradient theorem using our idea of execution paths, without any assumption on
how parameters are shared among coagents. We then generalize our setting and
proof to include the scenario where coagents act asynchronously. This new
perspective and theorem also lead to more mathematically accurate and
performant algorithms than those in the existing literature. Lastly, by running
nonstationary RL experiments, we survey the performance and properties of
different generalizations of option-critic models.
- Abstract(参考訳): 共役ネットワークは、強化学習環境において協調して行動を起こす確率的エージェントの任意のネットワークの概念を定式化する。
これは、HRLエージェント内の複数の確率的ネットワークをシーケンシングすることで、異なるレベルで抽象的なアクションを導入することによって、探索エクスプロイトのトレードオフに対処しようとするものである。
まず、coagentネットワークに該当するさまざまな例について、統一的な視点を示します。
我々は、coagentネットワークにおける実行パスの新規かつ直感的なアイデアにより実現される、coagentネットワークにおける実行ルールを定式化する。
階層的オプションクリティカルアーキテクチャにおけるパラメータ共有により動機付けされ、コアージェントネットワーク理論を再考し、我々の実行経路の考え方を用いてポリシー勾配定理のより短い証明を達成する。
次に、私たちは設定と証明を一般化し、コヒーレントが非同期に振る舞うシナリオを含むようにします。
この新たな視点と定理は、既存の文献よりも数学的に正確でパフォーマンスの高いアルゴリズムにも繋がる。
最後に、非定常RL実験により、オプションクリティカルモデルの異なる一般化の性能と特性を調査する。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Coagent Networks: Generalized and Scaled [44.06183176712763]
強化学習のためのCoagent Network(RL)は、原則学習規則を導出するための強力で柔軟なフレームワークを提供する。
この研究は、過去の研究によって提供される共役理論と学習規則を一般化する。
バックプロパゲーションを使用しないポリシーネットワークを持つコヒーレントアルゴリズムは、挑戦的なRLドメインにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-05-16T22:41:56Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Graph Convolutional Reinforcement Learning for Collaborative Queuing
Agents [6.3120870639037285]
DGNとして知られる新しいグラフ畳み込み型マルチエージェント強化学習手法を提案する。
DGNベースのアプローチは,すべてのシナリオにおいて厳格なスループットと遅延要件を満たすことを示す。
論文 参考訳(メタデータ) (2022-05-24T11:53:20Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。