論文の概要: The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes
- arxiv url: http://arxiv.org/abs/2603.05789v2
- Date: Tue, 10 Mar 2026 19:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.049437
- Title: The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes
- Title(参考訳): コーディネーションギャップ:マルチエージェント戦闘における時間的ダイナミクスの交替指標
- Authors: Nikolaos Al. Papadopoulos, Konstantinos Psannis,
- Abstract要約: マルコフゲームとして,BoEから派生したエグゼスの戦いのマルチエージェント変種について検討する。
高い総括的な支払いは、時間的調整の貧弱さと共存できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent coordination dilemmas expose a fundamental tension between individual optimization and collective welfare, yet characterizing such coordination requires metrics sensitive to temporal structure and collective dynamics. As a diagnostic testbed, we study a BoE-derived multi-agent variant of the Battle of the Exes, formalizing it as a Markov game in which turn-taking emerges as a periodic coordination regime. Conventional outcome-based metrics (e.g., efficiency and min/max fairness) are temporally blind (they cannot distinguish structured alternation from monopolistic or random access patterns) and fairness ratios lose discriminative power as n grows, obscuring inequities. To address this limitation, we introduce Perfect Alternation (PA) as a reference coordination regime and propose six novel Alternation (ALT) metrics designed as temporally sensitive observables of coordination quality. Using Q-learning agents as a minimal adaptive diagnostic baseline, and comparing against random-policy null processes, we uncover a clear measurement failure: despite exhibiting deceptively high traditional metrics (e.g., reward fairness often exceeding 0.9), learned policies perform up to 81% below random baselines under ALT-variant evaluation, a deficit already present in the two-agent case and intensifying as n grows. These results demonstrate, in this setting, that high aggregate payoffs can coexist with poor temporal coordination, and that conventional metrics may severely mischaracterize emergent dynamics. Our findings underscore the necessity of temporally aware observables for analyzing coordination in multi-agent games and highlight random-policy baselines as essential null processes for interpreting coordination outcomes relative to chance-level behavior.
- Abstract(参考訳): 多エージェント協調ジレンマは、個人の最適化と集団福祉の基本的な緊張を露呈するが、そのような調整を特徴づけるには、時間的構造や集団力学に敏感なメトリクスが必要である。
診断テストベッドとして,BoEから派生したエグゼスの戦いのマルチエージェント変種について検討し,周期的な協調体制としてターンテイクが出現するマルコフゲームとして定式化した。
従来の結果に基づく指標(例えば、効率とmin/maxの公平さ)は時間的に盲目であり(それらは単極的またはランダムなアクセスパターンと構造的変化を区別することはできない)、公平度比はnが成長するにつれて識別力を失う。
この制限に対処するため,PA(Perfect Alternation)を基準調整システムとして導入し,調整品質の時間的に敏感な観測可能なALT(Alternation)メトリクスを6つ提案する。
Q-ラーニングエージェントを最小限の適応的診断基準として使用し、ランダム・ポリチィ・ヌルプロセスと比較すると、従来の指標(例えば、報酬の公平度が0.9を超える場合が多い)が知覚的に高いにもかかわらず、学習ポリシーはALT変量評価の下でランダム・ベースラインより最大81%低い性能を示し、既に2つのエージェントのケースに存在し、nが成長するにつれて不足が増す。
これらの結果から,高集合的なペイオフは時間的調整の貧弱さと共存し,従来の指標が創発的ダイナミクスを著しく誤認する可能性が示唆された。
本研究は,多エージェントゲームにおけるコーディネートの分析や,ランダムポリティクスに基づくベースラインの強調に時間的認識が不可欠であることを示すものである。
関連論文リスト
- Probing Dec-POMDP Reasoning in Cooperative MARL [6.246549316580709]
統計的に基礎付けられた性能比較と情報理論プローブを組み合わせた診断スイートを提案する。
MPE、SMAX、Overcooked、Hanabi、MaBraxにまたがる37のシナリオにまたがるベースラインポリシーの振る舞いの複雑さを監査する。
診断の結果,これらのベンチマークでの成功には真のDec-POMDP推論が要求されることは滅多にないことがわかった。
論文 参考訳(メタデータ) (2026-02-24T11:44:46Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - A Generalized Adaptive Joint Learning Framework for High-Dimensional Time-Varying Models [0.8594140167290097]
本稿では,機能的変数選択と構造的変化点検出を同時に行うための正規化フレームワークであるAdaptive Joint Learning (AJL)を紹介する。
この分析は、疾患進行の同期相転移を明らかにし、時間変化の予測マーカーの相同的なセットを同定する。
論文 参考訳(メタデータ) (2026-01-08T02:07:49Z) - Adaptive Accountability in Networked MAS: Tracing and Mitigating Emergent Norms at Scale [2.28438857884398]
大規模ネットワーク化されたマルチエージェントシステムは、ますます重要なインフラの基盤となっている。
ライフサイクルを意識した監査台帳を通じて責任フローをトレースする適応的説明責任フレームワークを導入する。
我々は、期待される介入コストが敵の支払額を超えると、妥協された相互作用の長期比率は1より厳密に小さい定数で制限されることを示す有界補完定理を証明した。
論文 参考訳(メタデータ) (2025-12-21T02:04:47Z) - Shift Before You Learn: Enabling Low-Rank Representations in Reinforcement Learning [56.87989363424]
シフトした後継尺度において,低ランク構造が自然に現れることを示す。
有効な低ランク近似と推定に必要なシフトの量を定量化する。
論文 参考訳(メタデータ) (2025-09-05T15:48:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - DSDF: An approach to handle stochastic agents in collaborative
multi-agent reinforcement learning [0.0]
ロボットの機能低下や老化によって引き起こされるエージェントの真偽が、協調の不確実性にどのように寄与するかを示す。
DSDFは不確実性に応じてエージェントの割引係数を調整し,その値を用いて個々のエージェントのユーティリティネットワークを更新する。
論文 参考訳(メタデータ) (2021-09-14T12:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。