論文の概要: ARAC: Adaptive Regularized Multi-Agent Soft Actor-Critic in Graph-Structured Adversarial Games
- arxiv url: http://arxiv.org/abs/2511.08412v1
- Date: Wed, 12 Nov 2025 01:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.80303
- Title: ARAC: Adaptive Regularized Multi-Agent Soft Actor-Critic in Graph-Structured Adversarial Games
- Title(参考訳): ARAC: グラフ構造化逆数ゲームにおける適応正規化マルチエージェントソフトアクタクリティカル
- Authors: Ruochuan Shi, Runyu Lu, Yuanheng Zhu, Dongbin Zhao,
- Abstract要約: ARACは、エージェント依存をモデリングするためのアテンションベースのグラフニューラルネットワーク(GNN)と、適応的分散正規化機構を統合する。
ARACは、MARLベースラインと比較して、より高速な収束、最終的な成功率の向上、さまざまなエージェント間のスケーラビリティの向上を実現している。
- 参考スコア(独自算出の注目度): 25.176860778665173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In graph-structured multi-agent reinforcement learning (MARL) adversarial tasks such as pursuit and confrontation, agents must coordinate under highly dynamic interactions, where sparse rewards hinder efficient policy learning. We propose Adaptive Regularized Multi-Agent Soft Actor-Critic (ARAC), which integrates an attention-based graph neural network (GNN) for modeling agent dependencies with an adaptive divergence regularization mechanism. The GNN enables expressive representation of spatial relations and state features in graph environments. Divergence regularization can serve as policy guidance to alleviate the sparse reward problem, but it may lead to suboptimal convergence when the reference policy itself is imperfect. The adaptive divergence regularization mechanism enables the framework to exploit reference policies for efficient exploration in the early stages, while gradually reducing reliance on them as training progresses to avoid inheriting their limitations. Experiments in pursuit and confrontation scenarios demonstrate that ARAC achieves faster convergence, higher final success rates, and stronger scalability across varying numbers of agents compared with MARL baselines, highlighting its effectiveness in complex graph-structured environments.
- Abstract(参考訳): グラフ構造化多エージェント強化学習(MARL)における追従や対立のような敵のタスクでは、エージェントは極めてダイナミックな相互作用の下で協調し、スパース報酬は効率的な政策学習を妨げる。
本稿では,エージェント依存をモデル化するための注目型グラフニューラルネットワーク(GNN)と適応分散正規化機構を組み合わせた適応正規化マルチエージェント・アクタ・クリティカル(ARAC)を提案する。
GNNはグラフ環境における空間関係と状態特徴の表現を可能にする。
多様性の規則化は、スパース報酬問題を緩和するための政策ガイダンスとして機能するが、参照ポリシー自体が不完全である場合には、最適下限の収束につながる可能性がある。
適応的分散正規化機構により、フレームワークは、早期の効率的な探索のために参照ポリシーを活用できると同時に、トレーニングが進むにつれて、それらの制限を継承しないように、それらへの依存を徐々に減らすことができる。
追従と対向のシナリオの実験では、ARACはMARLベースラインと比較して、より高速な収束、最終成功率の向上、さまざまなエージェント間のスケーラビリティの向上を実現し、複雑なグラフ構造化環境での有効性を強調している。
関連論文リスト
- Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。
MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。
本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-05-30T14:46:05Z) - Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation [2.8169258551959544]
本稿では、グラフニューラルネットワーク(GNN)、深層強化学習(DRL)、マルチエージェント協調と集合タスク実行の強化のためのトランスフォーマーベースのメカニズムを統合する新しいフレームワークを提案する。
提案手法はGNNを用いて,適応グラフ構築によるエージェントエージェントとエージェントゴールの相互作用をモデル化し,制約付き通信下での効率的な情報集約と意思決定を可能にする。
論文 参考訳(メタデータ) (2025-04-11T01:46:18Z) - HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial
Training of GNNs [7.635985143883581]
コンピュータビジョンにおける敵の攻撃に対する最も効果的な防御機構の1つとされる敵の訓練は、GNNの堅牢性を高めるという大きな約束を持っている。
本稿では,GNNと下流分類器の対摂動性を高める階層的制約改善フレームワーク(HC-Ref)を提案する。
論文 参考訳(メタデータ) (2023-12-08T07:32:56Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - Dynamic Domain Adaptation for Efficient Inference [12.713628738434881]
ドメイン適応(DA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識転送を可能にする。
以前のdaアプローチのほとんどは、適応能力を改善するために複雑で強力なディープニューラルネットワークを活用する。
低リソースシナリオにおいて効率的なターゲット推論を同時に実現できる動的ドメイン適応(DDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-26T08:53:16Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。