論文の概要: Thinking Beyond Visibility: A Near-Optimal Policy Framework for Locally Interdependent Multi-Agent MDPs
- arxiv url: http://arxiv.org/abs/2506.04215v1
- Date: Wed, 04 Jun 2025 17:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.512882
- Title: Thinking Beyond Visibility: A Near-Optimal Policy Framework for Locally Interdependent Multi-Agent MDPs
- Title(参考訳): 可視性を超えて考える:局所的相互依存型マルチエージェントMDPのための準最適政策フレームワーク
- Authors: Alex DeWeese, Guannan Qu,
- Abstract要約: 3つの閉形式ポリシーが様々な状況で計算可能であり、可視性に関して指数関数的に最適であることを示す。
これらのポリシーは、活力以上のエージェントを記憶することができるため、多くの小さな、固定された可視性設定において、大幅にパフォーマンスが向上する。
また,局所的相互依存型マルチエージェント MDP の一般化形式を提案する。
- 参考スコア(独自算出の注目度): 6.015898117103069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs) are known to be NEXP-Complete and intractable to solve. However, for problems such as cooperative navigation, obstacle avoidance, and formation control, basic assumptions can be made about local visibility and local dependencies. The work DeWeese and Qu 2024 formalized these assumptions in the construction of the Locally Interdependent Multi-Agent MDP. In this setting, it establishes three closed-form policies that are tractable to compute in various situations and are exponentially close to optimal with respect to visibility. However, it is also shown that these solutions can have poor performance when the visibility is small and fixed, often getting stuck during simulations due to the so called "Penalty Jittering" phenomenon. In this work, we establish the Extended Cutoff Policy Class which is, to the best of our knowledge, the first non-trivial class of near optimal closed-form partially observable policies that are exponentially close to optimal with respect to the visibility for any Locally Interdependent Multi-Agent MDP. These policies are able to remember agents beyond their visibilities which allows them to perform significantly better in many small and fixed visibility settings, resolve Penalty Jittering occurrences, and under certain circumstances guarantee fully observable joint optimal behavior despite the partial observability. We also propose a generalized form of the Locally Interdependent Multi-Agent MDP that allows for transition dependence and extended reward dependence, then replicate our theoretical results in this setting.
- Abstract(参考訳): 離散化された部分観測可能なマルコフ決定過程(Dec-POMDPs)はNEXP-Completeとして知られており、解決が困難である。
しかし, 協調ナビゲーション, 障害物回避, 形成制御などの問題に対しては, 局所的な視認性や局所的な依存関係に関する基本的な仮定が可能である。
DeWeese と Qu 2024 はこれらの仮定を、局所的相互依存型マルチエージェント MDP の構築において公式化した。
この設定では、様々な状況で計算しやすく、可視性に関して指数関数的に最適に近い3つの閉形式ポリシーを確立する。
しかし、これらの解は視界が小さく、固定され、しばしば「ペナルティ・ジッタリング(Penalty Jittering)」現象によってシミュレーション中に立ち往生するときに、性能が劣ることも示されている。
本研究では,我々の知る限り,局所的相互依存型マルチエージェントMDPの可視性に関して,指数関数的に最適に近い近似的閉形式部分可観測政策の最初の非自明なクラスである拡張カットオフ政策クラスを確立する。
これらのポリシーは、可視性を超えたエージェントを記憶することができ、多くの小さな、固定された可視性の設定において大幅に向上し、ペナルティ・ジッタリングの発生を解決し、ある状況下では、部分的な可観測性にもかかわらず完全に観測可能な関節の最適動作を保証する。
また, 局所的相互依存型マルチエージェントMDPの一般化形式を提案し, 遷移依存と拡張報酬依存を実現し, この設定で理論結果を再現する。
関連論文リスト
- Generalization in Monitored Markov Decision Processes (Mon-MDPs) [9.81003561034599]
多くの実世界のシナリオでは、報酬は常に観測可能であるわけではなく、モニターされたマルコフ決定プロセス(Mon-MDP)としてモデル化することができる。
本研究は,関数近似(FA)を用いてMon-MDPを探索し,関連する課題について検討する。
学習した報酬モデルと関数近似を組み合わせることで,監視対象状態から監視対象環境状態へ,監視対象状態から監視対象環境までの報酬を一般化できることを示す。
論文 参考訳(メタデータ) (2025-05-13T21:58:25Z) - Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies [6.015898117103069]
局所的相互依存型マルチエージェントMDPと呼ばれる動的に異なる依存関係を持つ分散モデルの解析を行う。
一般に部分的に観察可能なマルチエージェントシステムの難しさにもかかわらず、3つのクローズドフォームポリシーを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:11:00Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - A Fully Polynomial Time Approximation Scheme for Constrained MDPs and
Stochastic Shortest Path under Local Transitions [2.512827436728378]
我々は,(C)C-MDPの構造,特に局所遷移を伴う重要な変種について検討した。
本研究では,(C)C-MDPの最適決定性ポリシを(ほぼ)計算する完全時間近似手法を提案する。
論文 参考訳(メタデータ) (2022-04-10T22:08:33Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Common Information based Approximate State Representations in
Multi-Agent Reinforcement Learning [3.086462790971422]
我々は、分散化されたポリシーを構築可能な共通およびプライベートな状態表現を近似した汎用的な圧縮フレームワークを開発する。
その結果,「分散分散実行の分散学習」方式で,実用的に有用なディープMARLネットワーク構造の設計に光を当てた。
論文 参考訳(メタデータ) (2021-10-25T02:32:06Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。