論文の概要: Coagent Networks Revisited
- arxiv url: http://arxiv.org/abs/2001.10474v2
- Date: Tue, 11 May 2021 11:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 01:56:37.628613
- Title: Coagent Networks Revisited
- Title(参考訳): coagentネットワークの再訪
- Authors: Modjtaba Shokrian Zini, Mohammad Pedramfar, Matthew Riemer, Miao Liu
- Abstract要約: この研究は、選択肢を用いたモデルに関する文献のギャップを議論し、解決することを目的としている。
また、Coagent Networkと呼ばれる同じカテゴリに分類される様々な例について統一的な視点を提供することも目的としている。
- 参考スコア(独自算出の注目度): 10.623560319587494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is aiming to discuss and close some of the gaps in the literature
on models using options (and more generally coagents). Briefly surveying the
theory behind these models, it also aims to provide a unifying point of view on
the many diverse examples that fall under a same category called coagent
network. Motivated by the result of [10] on parameter sharing of options, we
revisit the theory of (a)synchronous Coagent Network [8] by generalizing the
result to the context where parameters are shared among the function
approximators of coagents. The proof is more intuitive and uses the concept of
execution paths in a coagent network. Theoretically, this informs us of some
necessary modifications to the algorithms found in the literature which make
them more mathematically accurate. It also allows us to introduce a new simple
option framework, Feedforward Option Network, which outperforms the previous
option models in time to convergence and stability in the famous nonstationary
Four Rooms task. In addition, a stabilization effect is observed in
hierarchical models which justify the unnecessity of the target network in
training such models. Finally, we publish our code which allows us to be
flexible in our experiments settings.
- Abstract(参考訳): この研究は、オプション(およびより一般的なコーエイジェント)を用いたモデルに関する文献のギャップを議論し、解決することを目的としています。
これらのモデルの背後にある理論を簡単に調査すると同時に、coagent networkと呼ばれる同じカテゴリに属する多くの多様な例の統一的な視点を提供することも目標としている。
選択肢のパラメータ共有に関する[10]の結果に動機づけられ、(a)同期型コエージェントネットワーク [8] の理論を再検討し、その結果をコーエージェントの関数近似子間でパラメータが共有されるコンテキストに一般化する。
この証明はより直感的で、coagentネットワークにおける実行パスの概念を使っている。
理論的には、より数学的に正確になるように、文献にあるアルゴリズムの修正が必要なことを教えてくれる。
また、新しいシンプルなオプションフレームワーク、Feedforward Option Networkを導入できます。これは、有名な非定常的なFour Roomsタスクの収束と安定性に間に合うように、以前のオプションモデルを上回っます。
さらに、そのようなモデルのトレーニングにおいて、ターゲットネットワークの不必要性を正当化する階層モデルにおいて安定化効果が観察される。
最後に、実験設定で柔軟になるコードを公開します。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Coagent Networks: Generalized and Scaled [44.06183176712763]
強化学習のためのCoagent Network(RL)は、原則学習規則を導出するための強力で柔軟なフレームワークを提供する。
この研究は、過去の研究によって提供される共役理論と学習規則を一般化する。
バックプロパゲーションを使用しないポリシーネットワークを持つコヒーレントアルゴリズムは、挑戦的なRLドメインにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-05-16T22:41:56Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Graph Convolutional Reinforcement Learning for Collaborative Queuing
Agents [6.3120870639037285]
DGNとして知られる新しいグラフ畳み込み型マルチエージェント強化学習手法を提案する。
DGNベースのアプローチは,すべてのシナリオにおいて厳格なスループットと遅延要件を満たすことを示す。
論文 参考訳(メタデータ) (2022-05-24T11:53:20Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。