論文の概要: Multi-Agent Continuous Control with Generative Flow Networks
- arxiv url: http://arxiv.org/abs/2408.06920v1
- Date: Tue, 13 Aug 2024 14:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:16:52.993982
- Title: Multi-Agent Continuous Control with Generative Flow Networks
- Title(参考訳): 生成フローネットワークを用いたマルチエージェント連続制御
- Authors: Shuang Luo, Yinchuan Li, Shunyu Liu, Xu Zhang, Yunfeng Shao, Chao Wu,
- Abstract要約: Generative Flow Networks (GFlowNets) は, トラジェクトリの最終状態が報酬に比例する分布から, 多様なトラジェクトリを生成することを目的としている。
本稿では,複数エージェントによる協調探索を実現するために,MACFN(Multi-Agent Generative Continuous Flow Networks)法を提案する。
- 参考スコア(独自算出の注目度): 23.07260731600958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Flow Networks (GFlowNets) aim to generate diverse trajectories from a distribution in which the final states of the trajectories are proportional to the reward, serving as a powerful alternative to reinforcement learning for exploratory control tasks. However, the individual-flow matching constraint in GFlowNets limits their applications for multi-agent systems, especially continuous joint-control problems. In this paper, we propose a novel Multi-Agent generative Continuous Flow Networks (MACFN) method to enable multiple agents to perform cooperative exploration for various compositional continuous objects. Technically, MACFN trains decentralized individual-flow-based policies in a centralized global-flow-based matching fashion. During centralized training, MACFN introduces a continuous flow decomposition network to deduce the flow contributions of each agent in the presence of only global rewards. Then agents can deliver actions solely based on their assigned local flow in a decentralized way, forming a joint policy distribution proportional to the rewards. To guarantee the expressiveness of continuous flow decomposition, we theoretically derive a consistency condition on the decomposition network. Experimental results demonstrate that the proposed method yields results superior to the state-of-the-art counterparts and better exploration capability. Our code is available at https://github.com/isluoshuang/MACFN.
- Abstract(参考訳): Generative Flow Networks (GFlowNets) は、探索制御タスクにおける強化学習の強力な代替手段として、軌道の最終状態が報酬に比例する分布から多様な軌道を生成することを目的としている。
しかし、GFlowNetsにおける個別フローマッチング制約は、マルチエージェントシステム、特に連続的な共同制御問題に対する適用を制限する。
本稿では,複数エージェントによる多成分連続物体の協調探索を実現するための多エージェント生成型連続流れネットワーク(MACFN)を提案する。
技術的には、MACFNは個別フローベースのポリシーを中央集権的なグローバルフローベースのマッチング方式で訓練する。
集中トレーニング中、MACFNは、グローバルな報酬のみが存在する場合、各エージェントのフローコントリビューションを推論する継続的フロー分解ネットワークを導入している。
そして、エージェントは割り当てられたローカルフローにのみ依存したアクションを分散的に提供し、報酬に比例した共同ポリシー分布を形成する。
連続的な流れの分解の表現性を保証するため、理論的には分解ネットワーク上での一貫性条件を導出する。
実験結果から,提案手法は最先端の手法よりも優れ,探査能力も向上していることがわかった。
私たちのコードはhttps://github.com/isluoshuang/MACFN.comで公開されています。
関連論文リスト
- Heterogeneous Multi-Agent Reinforcement Learning for Distributed Channel Access in WLANs [47.600901884970845]
本稿では,マルチエージェント強化学習(MARL)を用いて,無線ローカルネットワークにおける分散チャネルアクセスに対処する。
特に、エージェントがモデルトレーニングに価値ベースまたはポリシーベースの強化学習アルゴリズムを不均一に採用する、より実践的なケースについて考察する。
我々は、分散実行パラダイムを用いた集中型トレーニングを採用し、異種エージェントの協調を可能にする、異種MARLトレーニングフレームワークQPMIXを提案する。
論文 参考訳(メタデータ) (2024-12-18T13:50:31Z) - Random Policy Evaluation Uncovers Policies of Generative Flow Networks [12.294107455811496]
GFlowNetsは、通常報酬の最大化を目的とした強化学習(RL)との強いつながりを共有している。
本稿では、GFlowNetsとRLの最も基本的なコンポーネントであるポリシー評価の基本的な関係を明らかにする。
本稿では,GFlowNetsと同じ報酬マッチング効果を達成できる修正ランダムポリシー評価(RPE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:11:53Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Generative Flow Networks: a Markov Chain Perspective [93.9910025411313]
我々はマルコフ連鎖を用いたGFlowNetsの新しい視点を提案し、状態空間の性質に関わらずGFlowNetsの統一的な視点を示す。
GFlowNetsをMCMCメソッドと同じ理論的フレームワークに配置することで、両方のフレームワーク間の類似性も特定できます。
論文 参考訳(メタデータ) (2023-07-04T01:28:02Z) - CFlowNets: Continuous Control with Generative Flow Networks [23.093316128475564]
探索制御タスクの強化学習の代替として,ジェネレーティブフローネットワーク(GFlowNets)を用いることができる。
本稿では,連続制御タスクに適用可能な生成連続フローネットワーク(CFlowNets)を提案する。
論文 参考訳(メタデータ) (2023-03-04T14:37:47Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - GFlowNet Foundations [66.69854262276391]
Generative Flow Networks (GFlowNets) は、多様な候補をアクティブな学習コンテキストでサンプリングする方法として導入された。
GFlowNetのさらなる理論的性質について述べる。
論文 参考訳(メタデータ) (2021-11-17T17:59:54Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。