論文の概要: Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.20338v1
- Date: Wed, 24 Sep 2025 17:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.921674
- Title: Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための適応型イベントトリガーポリシーグラディエント
- Authors: Umer Siddique, Abhinav Sinha, Yongcan Cao,
- Abstract要約: ET-MAPGはエージェントのコントロールポリシーとイベントトリガポリシーを共同で学習するフレームワークである。
AET-MAPGはエージェントに対して、アクションをいつ起動するかだけでなく、誰と通信し、どの情報を交換するかを決定する権限を与える。
- 参考スコア(独自算出の注目度): 1.3483705601540006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conventional multi-agent reinforcement learning (MARL) methods rely on time-triggered execution, where agents sample and communicate actions at fixed intervals. This approach is often computationally expensive and communication-intensive. To address this limitation, we propose ET-MAPG (Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a framework that jointly learns an agent's control policy and its event-triggering policy. Unlike prior work that decouples these mechanisms, ET-MAPG integrates them into a unified learning process, enabling agents to learn not only what action to take but also when to execute it. For scenarios with inter-agent communication, we introduce AET-MAPG, an attention-based variant that leverages a self-attention mechanism to learn selective communication patterns. AET-MAPG empowers agents to determine not only when to trigger an action but also with whom to communicate and what information to exchange, thereby optimizing coordination. Both methods can be integrated with any policy gradient MARL algorithm. Extensive experiments across diverse MARL benchmarks demonstrate that our approaches achieve performance comparable to state-of-the-art, time-triggered baselines while significantly reducing both computational load and communication overhead.
- Abstract(参考訳): 従来のマルチエージェント強化学習(MARL)手法は、エージェントが一定間隔で動作をサンプリングし伝達する時間トリガー実行に依存している。
このアプローチは計算コストが高く、通信に重きを置いていることが多い。
この制限に対処するため,エージェントの制御方針とイベントトリガーポリシーを共同で学習するET-MAPG(Event-Triggered Multi-Agent Policy Gradient reinforcement Learning)を提案する。
これらのメカニズムを分離する以前の作業とは異なり、ET-MAPGはそれらを統一的な学習プロセスに統合し、エージェントはどのようなアクションをとるかだけでなく、いつ実行するかを学ぶことができる。
エージェント間コミュニケーションのシナリオでは,AET-MAPGを導入する。AET-MAPGは,自己認識機構を利用して,選択的なコミュニケーションパターンを学習する。
AET-MAPGはエージェントに対して、アクションをいつトリガーするかだけでなく、誰と通信し、どの情報を交換するかを決定する権限を与え、調整を最適化する。
どちらの手法も任意のポリシー勾配 MARL アルゴリズムと統合できる。
多様なMARLベンチマークによる広範囲な実験により、我々の手法は、計算負荷と通信オーバーヘッドの両方を著しく低減しつつ、最先端の時間トリガーベースラインに匹敵する性能を実現していることが示された。
関連論文リスト
- MACTAS: Self-Attention-Based Module for Inter-Agent Communication in Multi-Agent Reinforcement Learning [0.0]
本稿では,MARL内のエージェント間で情報交換を行う自己注意型通信モジュールを提案する。
提案手法は完全に差別化可能であり、エージェントは報酬駆動方式でメッセージを生成することができる。
SMACベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-08-19T09:08:48Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Generalising Multi-Agent Cooperation through Task-Agnostic Communication [7.380444448047908]
協調型マルチロボット問題におけるMARL(Multi-agent reinforcement learning)の既存のコミュニケーション手法はほとんどタスク固有であり、各タスクごとに新しいコミュニケーション戦略を訓練する。
与えられた環境内の任意のタスクに適用可能な通信戦略を導入することで、この非効率性に対処する。
我々の目的は、可変数のエージェント観測から固定サイズの潜在マルコフ状態を学ぶことである。
本手法は,コミュニケーション戦略を微調整することなく,新しいタスクへのシームレスな適応が可能であり,トレーニング中よりも多くのエージェントへのスケーリングを優雅にサポートし,環境におけるアウト・オブ・ディストリビューションイベントを検出する。
論文 参考訳(メタデータ) (2024-03-11T14:20:13Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。