論文の概要: Capacity-Aware Planning and Scheduling in Budget-Constrained Multi-Agent MDPs: A Meta-RL Approach
- arxiv url: http://arxiv.org/abs/2410.21249v2
- Date: Fri, 26 Sep 2025 16:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.791608
- Title: Capacity-Aware Planning and Scheduling in Budget-Constrained Multi-Agent MDPs: A Meta-RL Approach
- Title(参考訳): 予算制約付きマルチエージェントMDPにおける容量を考慮した計画とスケジューリング:メタRLアプローチ
- Authors: Manav Vora, Ilan Shomorony, Melkior Ornik,
- Abstract要約: 容量・予算制約型マルチエージェントMDP(CB-MA-MDP)について検討する。
本稿では,大規模システムに対して,引き続きトラクタブルな2段階のソリューションを提案する。
- 参考スコア(独自算出の注目度): 12.116400321124594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study capacity- and budget-constrained multi-agent MDPs (CB-MA-MDPs), a class that captures many maintenance and scheduling tasks in which each agent can irreversibly fail and a planner must decide (i) when to apply a restorative action and (ii) which subset of agents to treat in parallel. The global budget limits the total number of restorations, while the capacity constraint bounds the number of simultaneous actions, turning na\"ive dynamic programming into a combinatorial search that scales exponentially with the number of agents. We propose a two-stage solution that remains tractable for large systems. First, a Linear Sum Assignment Problem (LSAP)-based grouping partitions the agents into r disjoint sets (r = capacity) that maximise diversity in expected time-to-failure, allocating budget to each set proportionally. Second, a meta-trained PPO policy solves each sub-MDP, leveraging transfer across groups to converge rapidly. To validate our approach, we apply it to the problem of scheduling repairs for a large team of industrial robots, constrained by a limited number of repair technicians and a total repair budget. Our results demonstrate that the proposed method outperforms baseline approaches in terms of maximizing the average uptime of the robot team, particularly for large team sizes. Lastly, we confirm the scalability of our approach through a computational complexity analysis across varying numbers of robots and repair technicians.
- Abstract(参考訳): キャパシティと予算に制約のあるマルチエージェントMDP(CB-MA-MDP)について検討する。
一 回復行為をしたとき
(ii) 並行処理を行うエージェントのサブセット。
グローバル予算はリストアの総数を制限するが、キャパシティ制約は同時アクションの数を制限し、na\\"ive dynamic programming を指数関数的にエージェントの数を拡大する組合せ探索に変換する。
本稿では,大規模システムに対して,引き続きトラクタブルな2段階のソリューションを提案する。
第一に、LSAP(Linear Sum Assignment Problem)に基づくグループ化は、エージェントをr個の非結合集合(r = キャパシティ)に分割し、期待される時間と障害の多様性を最大化し、各セットに予算を比例的に割り当てる。
第二に、メタ訓練されたPPOポリシーは各サブMDPを解き、グループ間の移動を利用して急速に収束する。
提案手法の有効性を検証するため,大規模な産業用ロボットの補修作業に,限られた数の修理技術者と総補修予算で制約される問題に適用した。
提案手法は,ロボットチームの平均アップタイムの最大化,特に大人数チームにおける平均アップタイムの最大化において,ベースラインアプローチよりも優れていることを示す。
最後に,ロボットや修理技術者を対象とする計算複雑性解析により,本手法のスケーラビリティを確認した。
関連論文リスト
- Efficient Solving of Large Single Input Superstate Decomposable Markovian Decision Process [1.17431678544333]
ベルマン動的プログラミングアルゴリズムの重要なステップはポリシー評価である。
我々は,この構造に基づく,正確かつ効率的な政策評価手法を開発した。
これにより、平均値と割引値の両方の報酬 MDP に適用可能なスケーラブルなソリューションが得られる。
論文 参考訳(メタデータ) (2025-08-01T17:49:27Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Solving Truly Massive Budgeted Monotonic POMDPs with Oracle-Guided Meta-Reinforcement Learning [1.1470070927586018]
本稿では,予算制約付き多成分単調POMDPの解法について考察する。
多くのコンポーネントに対して、現在の手法でそのようなPOMDPを解くことは、計算的に難解である。
我々は, 独立予算制約単成分POMDPのそれぞれを解くために, オラクル誘導メタトレーニングプロキシポリシー最適化 (PPO) アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-13T20:20:58Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling [4.499391876093543]
ニューラルワークによってパラメータ化された多くの損失項の多目的最適化のための重み乗算器のオンライン選択に対処する。
本手法は乗算器レスであり,エポックの時間スケールで動作する。
また、既存の多目的ディープラーニング手法の過剰なメモリ要件と重い計算負担を回避する。
論文 参考訳(メタデータ) (2024-03-20T16:38:26Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs [2.007262412327553]
本稿では,多成分予算制約POMDPの最適ポリシを求めるアルゴリズムを提案する。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-18T01:43:47Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
制約付き部分観測可能なマルコフ決定過程(CPOMDP)は、様々な実世界の現象をモデル化するために用いられている。
我々は、CPOMDPの近似ポリシーを生成するために、グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems [1.6939372704265414]
有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
論文 参考訳(メタデータ) (2020-11-09T06:51:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。