論文の概要: A Unified Framework for Locality in Scalable MARL
- arxiv url: http://arxiv.org/abs/2602.16966v1
- Date: Thu, 19 Feb 2026 00:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.529468
- Title: A Unified Framework for Locality in Scalable MARL
- Title(参考訳): スケーラブルMARLにおける局所性統一フレームワーク
- Authors: Sourav Chakraborty, Amit Kiran Rege, Claire Monteleoni, Lijun Chen,
- Abstract要約: 一般的な解決策は、値関数の指数決定性(EDP)に依存する局所性を利用することである。
また,地域性は環境依存的な現象であることも確認した。
一般スペクトル条件 $(Emathrms+Emathrma()) 1$ の指数減衰を導出するためにこの枠組みを用いる。
- 参考スコア(独自算出の注目度): 7.465238700168576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalable Multi-Agent Reinforcement Learning (MARL) is fundamentally challenged by the curse of dimensionality. A common solution is to exploit locality, which hinges on an Exponential Decay Property (EDP) of the value function. However, existing conditions that guarantee the EDP are often conservative, as they are based on worst-case, environment-only bounds (e.g., supremums over actions) and fail to capture the regularizing effect of the policy itself. In this work, we establish that locality can also be a \emph{policy-dependent} phenomenon. Our central contribution is a novel decomposition of the policy-induced interdependence matrix, $H^π$, which decouples the environment's sensitivity to state ($E^{\mathrm{s}}$) and action ($E^{\mathrm{a}}$) from the policy's sensitivity to state ($Π(π)$). This decomposition reveals that locality can be induced by a smooth policy (small $Π(π)$) even when the environment is strongly action-coupled, exposing a fundamental locality-optimality tradeoff. We use this framework to derive a general spectral condition $ρ(E^{\mathrm{s}}+E^{\mathrm{a}}Π(π)) < 1$ for exponential decay, which is strictly tighter than prior norm-based conditions. Finally, we leverage this theory to analyze a provably-sound localized block-coordinate policy improvement framework with guarantees tied directly to this spectral radius.
- Abstract(参考訳): スケーラブルなマルチエージェント強化学習(MARL)は,次元性の呪いによって根本的に挑戦される。
一般的な解決策は、値関数の指数決定性(EDP)に依存する局所性を利用することである。
しかしながら、EDPを保証する既存の条件は、最悪の場合、環境のみの境界(例えば、行動上の上限)に基づいており、ポリシー自体の正規化効果を捉えていないため、保守的であることが多い。
この研究において、局所性もまた \emph{policy-dependent} 現象であることを示す。
我々の中心的な貢献は、政策によって引き起こされる相互依存行列である$H^π$の新たな分解であり、これは環境の状態に対する感受性(E^{\mathrm{s}}$)と行動(E^{\mathrm{a}}$)を、政策の状態に対する感受性から切り離すものである。
この分解により、環境が強く作用結合している場合でも局所性はスムーズなポリシー(小さな$(π)$)によって誘導され、基本的局所性-最適トレードオフが露呈する。
この枠組みを用いて、一般的なスペクトル条件 $ρ(E^{\mathrm{s}}+E^{\mathrm{a}}\(π)) < 1$ の指数減衰を導出する。
最後に、この理論を利用して、このスペクトル半径に直結した保証を用いて、証明可能な局所化ブロックコーディネートポリシー改善フレームワークを解析する。
関連論文リスト
- Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Restless Bandits with Average Reward: Breaking the Uniform Global
Attractor Assumption [12.471848976031904]
基本的な目標は、腕の数($N$)が大きくなるにつれて、最適性のギャップを小さくするポリシーを効率的に計算することである。
既存の最適性に関する結果は、すべて一様大域的誘引特性(UGAP)に依存している。
我々は,任意の単一武器のポリシーを元の$N$武器の問題に対するポリシーに変換する,汎用的なシミュレーションベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-31T21:26:43Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。