論文の概要: Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach
- arxiv url: http://arxiv.org/abs/2408.13139v3
- Date: Mon, 13 Jan 2025 09:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:21:21.191413
- Title: Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach
- Title(参考訳): 同時進行型DEC-PMDPの最適解法 : 逐次中央計画アプローチ
- Authors: Johan Peralez, Aurèlien Delage, Jacopo Castellini, Rafael F. Cunha, Jilles S. Dibangoye,
- Abstract要約: 本稿では、分散実行のためのシーケンシャルモブ集中型トレーニングという、新しい、よりスケーラブルな代替手段を提案する。
さらに、ベルマンの最適性原理の適用性を高め、3つの新しい性質を提起する。
2-および多-エージェント領域の実験は、我々の新しいアプローチの優位性を確認した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The centralized training for decentralized execution paradigm emerged as the state-of-the-art approach to $\epsilon$-optimally solving decentralized partially observable Markov decision processes. However, scalability remains a significant issue. This paper presents a novel and more scalable alternative, namely the sequential-move centralized training for decentralized execution. This paradigm further pushes the applicability of the Bellman's principle of optimality, raising three new properties. First, it allows a central planner to reason upon sufficient sequential-move statistics instead of prior simultaneous-move ones. Next, it proves that $\epsilon$-optimal value functions are piecewise linear and convex in such sufficient sequential-move statistics. Finally, it drops the complexity of the backup operators from double exponential to polynomial at the expense of longer planning horizons. Besides, it makes it easy to use single-agent methods, e.g., SARSA algorithm enhanced with these findings, while still preserving convergence guarantees. Experiments on two- as well as many-agent domains from the literature against $\epsilon$-optimal simultaneous-move solvers confirm the superiority of our novel approach. This paradigm opens the door for efficient planning and reinforcement learning methods for multi-agent systems.
- Abstract(参考訳): 分散化された部分観測可能なマルコフ決定プロセスを最適化する$\epsilon$-optimallyに対する最先端のアプローチとして、分散実行パラダイムのための集中的なトレーニングが登場した。
しかし、スケーラビリティは依然として大きな問題である。
本稿では、分散実行のためのシーケンシャルモブ集中型トレーニングという、新しい、よりスケーラブルな代替手段を提案する。
このパラダイムはベルマンの最適性原理の適用性をさらに押し上げ、3つの新しい性質を提起する。
第一に、中央プランナーは、事前の同時移動ではなく、十分なシーケンシャルな移動統計を推論することができる。
次に、$\epsilon$-optimal value function は、そのような十分なシーケンシャル・モーブ統計学において、断片線型かつ凸であることを示す。
最後に、より長い計画的地平線を犠牲にして、バックアップ作用素の複雑さを二重指数関数から多項式に落とす。
さらに, コンバージェンス保証を保ちながら, SARSAアルゴリズムを改良した単一エージェント法の使用も容易である。
論文から得られた2項および多項のドメインを$\epsilon$-optimal simultaneously-moveソルバに対して実験した結果,本手法の優位性が確認された。
このパラダイムは、マルチエージェントシステムのための効率的な計画と強化学習手法の扉を開く。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Diffusion Stochastic Optimization for Min-Max Problems [33.73046548872663]
楽観的勾配法はミニマックス最適化問題に対処するのに有用である。
従来のバージョンでは大きなバッチサイズが必要であり,Samevareps-generativeOGOGと呼ばれる新しい定式化を導入,解析する。
論文 参考訳(メタデータ) (2024-01-26T01:16:59Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Holdout SGD: Byzantine Tolerant Federated Learning [43.446891082719944]
本研究は、グラディエントDescent(SGD)最適化のための、新しい分散ビザンチン耐性フェデレート学習アルゴリズムであるHoldOut SGDを提案する。
HoldOut SGDは、分散形式でホールドアウト推定というよく知られた機械学習技術を使用して、損失値の低いモデルにつながる可能性のあるパラメータ更新を選択する。
我々は、最適なモデルへの収束と、ビザンティン労働者のごく一部に対するレジリエンスのレベルの観点から、HoldOut SGDプロセスの正式な保証を提供する。
論文 参考訳(メタデータ) (2020-08-11T10:16:37Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。