論文の概要: Embodiment-Induced Coordination Regimes in Tabular Multi-Agent Q-Learning
- arxiv url: http://arxiv.org/abs/2601.17454v1
- Date: Sat, 24 Jan 2026 13:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.794257
- Title: Embodiment-Induced Coordination Regimes in Tabular Multi-Agent Q-Learning
- Title(参考訳): タブラル多エージェントQ-Learningにおける身体刺激によるコーディネーションレギュレーション
- Authors: Muhammad Ahmed Atif, Nehal Naeem Haji, Mohammad Shahid Shaikh, Muhammad Ebad Atif,
- Abstract要約: エージェントの速度とスタミナに対する明示的な具体的制約下での独立性と集中的なQ-ラーニングを比較した。
その結果, コーディネーションの増大は, 実施制約下での負債となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Centralized value learning is often assumed to improve coordination and stability in multi-agent reinforcement learning, yet this assumption is rarely tested under controlled conditions. We directly evaluate it in a fully tabular predator-prey gridworld by comparing independent and centralized Q-learning under explicit embodiment constraints on agent speed and stamina. Across multiple kinematic regimes and asymmetric agent roles, centralized learning fails to provide a consistent advantage and is frequently outperformed by fully independent learning, even under full observability and exact value estimation. Moreover, asymmetric centralized-independent configurations induce persistent coordination breakdowns rather than transient learning instability. By eliminating confounding effects from function approximation and representation learning, our tabular analysis isolates coordination structure as the primary driver of these effects. The results show that increased coordination can become a liability under embodiment constraints, and that the effectiveness of centralized learning is fundamentally regime and role dependent rather than universal.
- Abstract(参考訳): 集中型価値学習は、多エージェント強化学習におけるコーディネーションと安定性を改善するためにしばしば仮定されるが、この仮定は制御条件下で検証されることは滅多にない。
エージェントの速度とスタミナに対する明示的な具体的制約の下で、独立したQ-ラーニングと集中型Q-ラーニングを比較して、完全に表した捕食者のグリッドワールドで直接評価する。
複数のキネマティックな体制と非対称なエージェントの役割にまたがって、一貫した学習は一貫した優位性を得られず、完全な観測可能性と正確な値推定の下でも、完全に独立した学習によってしばしば性能が向上する。
さらに、非対称な集中型独立構成は、過渡的な学習不安定性よりも永続的な協調的分解を誘導する。
関数近似と表現学習から相反する効果を排除し,これらの効果の主要因として協調構造を分離する。
その結果, コーディネーションの増大は, 実施制約下での責任となりうること, 集中学習の有効性は, 普遍的というよりも, 基本的に体制的かつ役割的に依存していることが示唆された。
関連論文リスト
- UACER: An Uncertainty-Aware Critic Ensemble Framework for Robust Adversarial Reinforcement Learning [15.028168889991795]
頑健な対人強化学習(UACER)のための新しいアプローチである不確実性に配慮した批判アンサンブルを提案する。
本稿では,頑健な対人強化学習(UACER)のための新しいアプローチ,不確実性に配慮した批判アンサンブルを提案する。
論文 参考訳(メタデータ) (2025-12-11T10:14:13Z) - A Unified and Stable Risk Minimization Framework for Weakly Supervised Learning with Theoretical Guarantees [33.15955234458642]
完全かつ正確なラベルが取得にコストがかかる、あるいは不可能な場合には、完全に教師付き学習の代替として弱教師付き学習が実用化されている。
弱教師付きデータの構造に根ざした安定な代理リスクを定式化することにより、そのようなポストホック調整を回避できる、原則化された統一されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-28T00:57:04Z) - Adaptive Variance-Penalized Continual Learning with Fisher Regularization [0.0]
本研究は、パラメータ分散のフィッシャー重み付き非対称正規化を統合する、新しい連続学習フレームワークを提案する。
本手法はパラメータの不確かさに応じて正規化強度を動的に変調し,安定性と性能を向上させる。
論文 参考訳(メタデータ) (2025-08-15T21:49:28Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Divergent Ensemble Networks: Enhancing Uncertainty Estimation with Shared Representations and Independent Branching [0.9963916732353794]
Divergent Ensemble Network (DEN)は、共有表現学習と独立分岐を組み合わせた新しいアーキテクチャである。
DENは共有入力層を使用して、すべてのブランチに共通する特徴をキャプチャし、続いて、アンサンブルを形成する独立したトレーニング可能な層を分離する。
この共有分岐構造は、アンサンブルの多様性を維持しながらパラメータの冗長性を低減し、効率的でスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2024-12-02T06:52:45Z) - Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。
我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文 参考訳(メタデータ) (2024-10-01T22:16:22Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
ネットワーク化されたアプローチは、障害の更新や人口規模の変化に対する堅牢性という点において、両方の選択肢に対して大きなメリットがあることが示されています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - Adversarially Robust Stability Certificates can be Sample-Efficient [14.658040519472646]
未知の非線形力学系に対する逆向きに頑健な安定性証明について考察する。
敵安定証明書を学習する統計的コストは,定型的安定性証明書を学習するのと同程度であることを示す。
論文 参考訳(メタデータ) (2021-12-20T17:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。