論文の概要: Structural Equivalence and Learning Dynamics in Delayed MARL
- arxiv url: http://arxiv.org/abs/2605.04345v1
- Date: Tue, 05 May 2026 23:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.573109
- Title: Structural Equivalence and Learning Dynamics in Delayed MARL
- Title(参考訳): 遅延MARLにおける構造等価性と学習ダイナミクス
- Authors: Jules Sintes, Ana Bušić, Jiamin Zhu,
- Abstract要約: 我々は,協調的に観測可能なマルチエージェントシステムにおいて,観測遅延(OD)と行動遅延(AD)の等価性を確立する。
両システムは同一の許容可能連立政治集合を生成し,その状態-作用-観測軌道は分布において同一であることを示す。
これは、既存の無限水平単エージェント結果を、任意の水平部分観測可能な協調多エージェント問題に正式に一般化する。
- 参考スコア(独自算出の注目度): 2.2302915692528367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We formally establish the equivalence between Observation Delay (OD) and Action Delay (AD) in cooperative partially observable multi-agent systems using observation-action histories. We show that both systems generate identical admissible joint-policy sets, and their induced state-action-observation trajectories are identical in distribution, leading to identical optimal solutions in Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs). This formally generalizes existing infinite-horizon single-agent results to any-horizon partially observable cooperative multi-agent problems with decentralized policy execution, and allows any mixed-delay configuration to be reduced to a pure OD system. We further prove that in Transition-Independent MDPs (TI-MDPs), the observation-action history reduces to a tractable minimal local augmented state. However, we show through numerical experiments that although the optimal solution spaces are structurally isomorphic, the practical learning dynamics are fundamentally different. First, using the minimal local augmented state, the equivalence no longer holds when transitions are not independent. Second, operational constraints and causal credit-assignment errors in Temporal Difference (TD) algorithms induce different learning behaviors across regimes. Finally, leveraging this structural equivalence to bypass these learning challenges, we demonstrate successful multi-agent zero-shot policy transfer from OD to AD, paving the way for unified, efficient solution methods in complex delayed systems.
- Abstract(参考訳): 観察・動作履歴を用いた協調的部分観測可能マルチエージェントシステムにおいて、観測遅延(OD)と行動遅延(AD)の等価性を正式に確立する。
両システムは同一の許容可能連立政治集合を生成し,その誘導状態-動作-観測軌道は分布において同一であり,分散化された部分観測可能マルコフ決定過程(Dec-POMDPs)において同一の最適解をもたらすことを示す。
これにより、既存の無限水平単エージェント結果を、分散ポリシー実行を伴う任意の水平部分観測可能な協調マルチエージェント問題に正式に一般化し、混合遅延構成を純粋なODシステムに還元することができる。
さらに,遷移非依存型MDP(TI-MDPs)では,観測行動履歴が最小限の局所的拡張状態に減少することが証明された。
しかし、数値実験により、最適解空間は構造的に同型であるが、実際的な学習力学は根本的に異なることを示す。
第一に、最小限の局所増分状態を用いることで、遷移が独立でない場合、同値性はもはや保たない。
第2に、時間差分法(TD)アルゴリズムにおける運用上の制約と因果的信用割り当て誤差は、政権間で異なる学習行動を引き起こす。
最後に、この構造的等価性を利用してこれらの学習課題を回避し、ODからADへのマルチエージェントゼロショットポリシー移行の成功を実証し、複雑な遅延システムにおける統一的で効率的な解法を開拓する。
関連論文リスト
- Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文 参考訳(メタデータ) (2026-04-16T01:21:14Z) - Emergent Coordination and Phase Structure in Independent Multi-Agent Reinforcement Learning [0.0]
環境サイズLとエージェント密度の大規模な実験を行った。
2つの軸(協調成功率(CSR)とTD誤差分散から導かれる安定性指数)を用いて位相マップを構築する。
分散MARLは,スケール,密度,カーネルドリフトの相互作用によって支配されるコヒーレントな位相構造を示す。
論文 参考訳(メタデータ) (2025-11-28T16:14:31Z) - Locality Preserving Markovian Transition for Instance Retrieval [59.16243976912006]
局所保存マルコフ遷移(LPMT)フレームワークは,複数状態の長期熱力学的遷移プロセスを用いて正確な多様体距離測定を行う。
提案するLPMTは,BCD(Bidirectional Collaborative Diffusion)を用いて,各グラフ間の拡散過程を統合することにより,強い類似性関係を確立する。
その後、Locality State Embedding (LSE)は各インスタンスを分散にエンコードし、ローカル一貫性を向上する。
これらの分布は熱力学的マルコフ遷移(TMT)プロセスを介して相互接続され、局所的な有効性を維持しながら効率的な大域的探索を可能にする。
論文 参考訳(メタデータ) (2025-06-05T16:07:31Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies [6.015898117103069]
局所的相互依存型マルチエージェントMDPと呼ばれる動的に異なる依存関係を持つ分散モデルの解析を行う。
一般に部分的に観察可能なマルチエージェントシステムの難しさにもかかわらず、3つのクローズドフォームポリシーを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:11:00Z) - Strategic Distribution Shift of Interacting Agents via Coupled Gradient
Flows [6.064702468344376]
実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。
より単純なモデルでは捉えられない偏極や異なる影響といった、よく文書化された形態の分布シフトを捉える手法を示す。
論文 参考訳(メタデータ) (2023-07-03T17:18:50Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。