論文の概要: Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach
- arxiv url: http://arxiv.org/abs/2408.13139v3
- Date: Mon, 13 Jan 2025 09:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:21:21.191413
- Title: Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach
- Title(参考訳): 同時進行型DEC-PMDPの最適解法 : 逐次中央計画アプローチ
- Authors: Johan Peralez, Aurèlien Delage, Jacopo Castellini, Rafael F. Cunha, Jilles S. Dibangoye,
- Abstract要約: 本稿では、分散実行のためのシーケンシャルモブ集中型トレーニングという、新しい、よりスケーラブルな代替手段を提案する。
さらに、ベルマンの最適性原理の適用性を高め、3つの新しい性質を提起する。
2-および多-エージェント領域の実験は、我々の新しいアプローチの優位性を確認した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The centralized training for decentralized execution paradigm emerged as the state-of-the-art approach to $\epsilon$-optimally solving decentralized partially observable Markov decision processes. However, scalability remains a significant issue. This paper presents a novel and more scalable alternative, namely the sequential-move centralized training for decentralized execution. This paradigm further pushes the applicability of the Bellman's principle of optimality, raising three new properties. First, it allows a central planner to reason upon sufficient sequential-move statistics instead of prior simultaneous-move ones. Next, it proves that $\epsilon$-optimal value functions are piecewise linear and convex in such sufficient sequential-move statistics. Finally, it drops the complexity of the backup operators from double exponential to polynomial at the expense of longer planning horizons. Besides, it makes it easy to use single-agent methods, e.g., SARSA algorithm enhanced with these findings, while still preserving convergence guarantees. Experiments on two- as well as many-agent domains from the literature against $\epsilon$-optimal simultaneous-move solvers confirm the superiority of our novel approach. This paradigm opens the door for efficient planning and reinforcement learning methods for multi-agent systems.
- Abstract(参考訳): 分散化された部分観測可能なマルコフ決定プロセスを最適化する$\epsilon$-optimallyに対する最先端のアプローチとして、分散実行パラダイムのための集中的なトレーニングが登場した。
しかし、スケーラビリティは依然として大きな問題である。
本稿では、分散実行のためのシーケンシャルモブ集中型トレーニングという、新しい、よりスケーラブルな代替手段を提案する。
このパラダイムはベルマンの最適性原理の適用性をさらに押し上げ、3つの新しい性質を提起する。
第一に、中央プランナーは、事前の同時移動ではなく、十分なシーケンシャルな移動統計を推論することができる。
次に、$\epsilon$-optimal value function は、そのような十分なシーケンシャル・モーブ統計学において、断片線型かつ凸であることを示す。
最後に、より長い計画的地平線を犠牲にして、バックアップ作用素の複雑さを二重指数関数から多項式に落とす。
さらに, コンバージェンス保証を保ちながら, SARSAアルゴリズムを改良した単一エージェント法の使用も容易である。
論文から得られた2項および多項のドメインを$\epsilon$-optimal simultaneously-moveソルバに対して実験した結果,本手法の優位性が確認された。
このパラダイムは、マルチエージェントシステムのための効率的な計画と強化学習手法の扉を開く。
関連論文リスト
- DCatalyst: A Unified Accelerated Framework for Decentralized Optimization [10.925931212031692]
中央サーバを持たないグラフとしてモデル化されたエージェントネットワーク上での分散最適化について検討する。
我々はNesterovアクセラレーションを分散最適化アルゴリズムに統合した統合ブラックボックスフレームワークDCatalystを紹介する。
論文 参考訳(メタデータ) (2025-01-30T03:32:59Z) - Fully First-Order Methods for Decentralized Bilevel Optimization [17.20330936572045]
本稿では,エージェントが隣人とのみ通信する分散二段階最適化(DSBO)に焦点を当てる。
本稿では,既存の作品に広く採用されている2次オラクルよりもはるかに安価な1次オラクルのみを必要とする新しいアルゴリズムである,分散グラディエントDescent and Ascent with Gradient Tracking (DSGDA-GT)を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:11:43Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Holdout SGD: Byzantine Tolerant Federated Learning [43.446891082719944]
本研究は、グラディエントDescent(SGD)最適化のための、新しい分散ビザンチン耐性フェデレート学習アルゴリズムであるHoldOut SGDを提案する。
HoldOut SGDは、分散形式でホールドアウト推定というよく知られた機械学習技術を使用して、損失値の低いモデルにつながる可能性のあるパラメータ更新を選択する。
我々は、最適なモデルへの収束と、ビザンティン労働者のごく一部に対するレジリエンスのレベルの観点から、HoldOut SGDプロセスの正式な保証を提供する。
論文 参考訳(メタデータ) (2020-08-11T10:16:37Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。