論文の概要: Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO
- arxiv url: http://arxiv.org/abs/2604.04983v1
- Date: Sat, 04 Apr 2026 23:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.382471
- Title: Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO
- Title(参考訳): テリトリー・ペイント戦争:競争力のある多エージェントPPOにおける障害モードの診断と緩和
- Authors: Diyansha Singh,
- Abstract要約: テリトリー・ペイント戦争は、ユニティで実施された最小の競争力のある多エージェント強化学習環境である。
我々はこれを,自己再生下での親密な政策最適化の失敗モードを体系的に調査するために利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Territory Paint Wars, a minimal competitive multi-agent reinforcement learning environment implemented in Unity, and use it to systematically investigate failure modes of Proximal Policy Optimisation (PPO) under self-play. A first agent trained for $84{,}000$ episodes achieves only $26.8\%$ win rate against a uniformly-random opponent in a symmetric zero-sum game. Through controlled ablations we identify five implementation-level failure modes -- reward-scale imbalance, missing terminal signal, ineffective long-horizon credit assignment, unnormalised observations, and incorrect win detection -- each of which contributes critically to this failure in this setting. After correcting these issues, we uncover a distinct emergent pathology: competitive overfitting, where co-adapting agents maintain stable self-play performance while generalisation win rate collapses from $73.5\%$ to $21.6\%$. Critically, this failure is undetectable via standard self-play metrics: both agents co-adapt equally, so the self-play win rate remains near $50\%$ throughout the collapse. We propose a minimal intervention -- opponent mixing, where $20\%$ of training episodes substitute a fixed uniformly-random policy for the co-adaptive opponent -- which mitigates competitive overfitting and restores generalisation to $77.1\%$ ($\pm 12.6\%$, $10$ seeds) without population-based training or additional infrastructure. We open-source Territory Paint Wars to provide a reproducible benchmark for studying competitive MARL failure modes.
- Abstract(参考訳): 我々は、Unityに実装された最小限の競争力を持つマルチエージェント強化学習環境であるテリトリー・ペイント・ウォーズを紹介し、それを用いて、PPO(Pximal Policy Optimisation)の障害モードを自己プレイで体系的に調査する。
840{,}000$のエピソードで訓練された最初のエージェントは、対称ゼロサムゲームにおいて一様ランダムな相手に対して26.8\%の勝利率しか達成しない。
制御されたアブレーションを通じて、5つの実装レベルの障害モード - 報酬スケールの不均衡、端末信号の欠如、非効率なロングホライゾンクレジット割り当て、不正常な観察、不正な勝利検出 -- を特定します。
競争オーバーフィッティングでは、協調適応エージェントが安定したセルフプレイパフォーマンスを維持し、一般化の勝利率は73.5\%$から21.6\%$に崩壊する。
この失敗は、標準的なセルフプレイの指標では検出できない。双方のエージェントが同等に適応するため、セルフプレイの勝利率は、倒産後も50セント近くである。
トレーニングエピソードの20.%が、競争上の過度なオーバーフィットを軽減し、人口ベースのトレーニングや追加のインフラなしに、一般化を7.1.%$(\pm 12.6\%$, 10$ seed)に回復する。
われわれは、競合するMARL障害モードを研究するための再現可能なベンチマークを提供するために、Territory Paint Warsをオープンソース化した。
関連論文リスト
- Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning [51.77462571479799]
マルチエージェント模倣学習(MA-IL)は、マルチエージェント対話ドメインにおけるインタラクションのエキスパートによる実証から最適なポリシーを学ぶことを目的としている。
学習したポリシのパフォーマンスに関する保証は存在するが、オフラインMA-ILでは、学習した警察がナッシュ均衡からどこまで離れているかの特徴が欠落している。
論文 参考訳(メタデータ) (2026-02-24T15:38:11Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - DiffFP: Learning Behaviors from Scratch via Diffusion-based Fictitious Play [5.8808473430456525]
ゼロサムゲームにおける未確認相手に対する最良の応答を推定する架空のプレイフレームワークであるDiffFPを提案する。
レースや多粒子ゼロサムゲームを含む複雑なマルチエージェント環境において,本手法の有効性を検証した。
提案手法は, RLベースのベースラインに対して, 最大で3$times$高速収束, 30$times$高い成功率を達成する。
論文 参考訳(メタデータ) (2025-11-17T09:48:29Z) - Competitive Multi-armed Bandit Games for Resource Sharing [17.986928810925686]
現代の資源共有システムでは、複数のエージェントが未知の状態の限られたリソースにアクセスしてタスクを実行する。
本稿では,N-player K-arm competitive MAB gameについて検討し,N-myopic player(エージェント)が互いに競い合い,未知の腕の多様な個人推定を行う。
論文 参考訳(メタデータ) (2025-03-26T20:35:18Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - DM$^2$: Distributed Multi-Agent Reinforcement Learning for Distribution
Matching [43.58408474941208]
本稿では,明示的なコーディネーション方式を使わずに,分散マルチエージェント学習の課題を考察する。
各エージェントは、共同専門家ポリシーから同時にサンプリングされた軌道の目標分布と一致する。
StarCraftドメインでの実験的検証は、分散の報酬と環境の報酬を組み合わせることで、エージェントが完全に分散されたベースラインより優れたパフォーマンスを発揮することを示している。
論文 参考訳(メタデータ) (2022-06-01T04:57:50Z) - School of hard knocks: Curriculum analysis for Pommerman with a fixed
computational budget [4.726777092009554]
Pommermanはハイブリッドな協調/逆のマルチエージェント環境です。
これは強化学習アプローチにとって難しい環境である。
制約付き計算予算10万ゲームにおいて、堅牢で有望なポリシーを学習するためのカリキュラムを開発する。
論文 参考訳(メタデータ) (2021-02-23T15:43:09Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。