論文の概要: Capacity-Aware Planning and Scheduling in Budget-Constrained Monotonic MDPs: A Meta-RL Approach
- arxiv url: http://arxiv.org/abs/2410.21249v1
- Date: Mon, 28 Oct 2024 17:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:32.584978
- Title: Capacity-Aware Planning and Scheduling in Budget-Constrained Monotonic MDPs: A Meta-RL Approach
- Title(参考訳): 予算制約付き単調MDPにおける容量を考慮した計画とスケジューリング:メタRLアプローチ
- Authors: Manav Vora, Ilan Shomorony, Melkior Ornik,
- Abstract要約: 多くの実世界のシーケンシャル修復問題は、単調マルコフ決定プロセス(MDP)を用いて効果的にモデル化できる。
本研究は,多成分単調MDPを予算とキャパシティの制約で解く問題に対処する。
- 参考スコア(独自算出の注目度): 7.385321178884467
- License:
- Abstract: Many real-world sequential repair problems can be effectively modeled using monotonic Markov Decision Processes (MDPs), where the system state stochastically decreases and can only be increased by performing a restorative action. This work addresses the problem of solving multi-component monotonic MDPs with both budget and capacity constraints. The budget constraint limits the total number of restorative actions and the capacity constraint limits the number of restorative actions that can be performed simultaneously. While prior methods dealt with budget constraints, including capacity constraints in prior methods leads to an exponential increase in computational complexity as the number of components in the MDP grows. We propose a two-step planning approach to address this challenge. First, we partition the components of the multi-component MDP into groups, where the number of groups is determined by the capacity constraint. We achieve this partitioning by solving a Linear Sum Assignment Problem (LSAP). Each group is then allocated a fraction of the total budget proportional to its size. This partitioning effectively decouples the large multi-component MDP into smaller subproblems, which are computationally feasible because the capacity constraint is simplified and the budget constraint can be addressed using existing methods. Subsequently, we use a meta-trained PPO agent to obtain an approximately optimal policy for each group. To validate our approach, we apply it to the problem of scheduling repairs for a large group of industrial robots, constrained by a limited number of repair technicians and a total repair budget. Our results demonstrate that the proposed method outperforms baseline approaches in terms of maximizing the average uptime of the robot swarm, particularly for large swarm sizes.
- Abstract(参考訳): 多くの実世界のシーケンシャルな修復問題はモノトニックなマルコフ決定プロセス(MDP)を用いて効果的にモデル化することができる。
本研究は,多成分単調MDPを予算とキャパシティの制約で解く問題に対処する。
予算制約は、復元アクションの総数を制限するとともに、キャパシティ制約は同時に実行できる復元アクションの数を制限する。
従来の手法が予算制約に対処する一方で、従来の手法の容量制約を含むと、MDPのコンポーネント数が増加するにつれて、計算複雑性が指数関数的に増加する。
この課題に対処するための2段階の計画手法を提案する。
まず,多成分MPPの成分をグループに分割し,容量制約によってグループ数を決定する。
本稿では,Linear Sum Assignment Problem (LSAP) を解くことで,この分割を実現する。
各グループは、そのサイズに比例した予算のごく一部を割り当てる。
この分割は、大規模多成分MPPをより小さなサブプロブレムに効果的に分離するが、これは計算可能であり、キャパシティ制約が単純化され、既存の手法で予算制約に対処できるためである。
その後、メタトレーニングされたPPOエージェントを用いて、各グループに対してほぼ最適なポリシーを得る。
提案手法の有効性を検証するため,少数の修理技術者と総修理予算に制約された大規模産業用ロボット群に対する補修作業のスケジューリング問題に適用した。
提案手法は,ロボット群の平均アップタイムの最大化,特に大きな群れサイズにおいて,ベースラインアプローチよりも優れていることを示す。
関連論文リスト
- Solving Truly Massive Budgeted Monotonic POMDPs with Oracle-Guided Meta-Reinforcement Learning [1.1470070927586018]
本稿では,予算制約付き多成分単調POMDPの解法について考察する。
多くのコンポーネントに対して、現在の手法でそのようなPOMDPを解くことは、計算的に難解である。
我々は, 独立予算制約単成分POMDPのそれぞれを解くために, オラクル誘導メタトレーニングプロキシポリシー最適化 (PPO) アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-13T20:20:58Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling [4.499391876093543]
ニューラルワークによってパラメータ化された多くの損失項の多目的最適化のための重み乗算器のオンライン選択に対処する。
本手法は乗算器レスであり,エポックの時間スケールで動作する。
また、既存の多目的ディープラーニング手法の過剰なメモリ要件と重い計算負担を回避する。
論文 参考訳(メタデータ) (2024-03-20T16:38:26Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs [2.007262412327553]
本稿では,多成分予算制約POMDPの最適ポリシを求めるアルゴリズムを提案する。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-18T01:43:47Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
制約付き部分観測可能なマルコフ決定過程(CPOMDP)は、様々な実世界の現象をモデル化するために用いられている。
我々は、CPOMDPの近似ポリシーを生成するために、グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems [1.6939372704265414]
有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
論文 参考訳(メタデータ) (2020-11-09T06:51:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。