論文の概要: Reinforcement Learning for Assignment Problem with Time Constraints
- arxiv url: http://arxiv.org/abs/2106.02856v1
- Date: Sat, 5 Jun 2021 10:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:40:08.010370
- Title: Reinforcement Learning for Assignment Problem with Time Constraints
- Title(参考訳): 時間制約を伴う割当て問題に対する強化学習
- Authors: Sharmin Pathan, Vyom Shrivastava
- Abstract要約: 本稿では、労働者グループに複数のタスクをマッピングしたアサインメント問題のためのエンドツーエンドフレームワークを提案する。
我々は,課題に関連する総コストを最小化することにより,問題の最適解を見つけるための強化学習エージェントを訓練する。
また、同じフレームワークを用いて、ビンパッキングおよび静電容量化車両ルーティング問題に関する結果も示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end framework for the Assignment Problem with multiple
tasks mapped to a group of workers, using reinforcement learning while
preserving many constraints. Tasks and workers have time constraints and there
is a cost associated with assigning a worker to a task. Each worker can perform
multiple tasks until it exhausts its allowed time units (capacity). We train a
reinforcement learning agent to find near optimal solutions to the problem by
minimizing total cost associated with the assignments while maintaining hard
constraints. We use proximal policy optimization to optimize model parameters.
The model generates a sequence of actions in real-time which correspond to task
assignment to workers, without having to retrain for changes in the dynamic
state of the environment. In our problem setting reward is computed as negative
of the assignment cost. We also demonstrate our results on bin packing and
capacitated vehicle routing problem, using the same framework. Our results
outperform Google OR-Tools using MIP and CP-SAT solvers with large problem
instances, in terms of solution quality and computation time.
- Abstract(参考訳): 多くの制約を保ちながら強化学習を用いて、労働者のグループに複数のタスクをマッピングした割当て問題のためのエンドツーエンドフレームワークを提案する。
タスクとワーカーには時間的制約があり、タスクにワーカーを割り当てることに関連するコストがある。
各ワーカーは、許容時間単位(容量)が切れるまで複数のタスクを実行することができる。
我々は,厳密な制約を維持しつつ,課題に付随する総コストを最小化し,問題の最適解を見つけるための強化学習エージェントを訓練する。
モデルパラメータの最適化には近似ポリシー最適化を用いる。
モデルは、環境の動的状態の変化に対して再訓練することなく、労働者へのタスク割り当てに対応するリアルタイムに一連のアクションを生成する。
問題設定報酬は割り当てコストの負として計算される。
また、同じフレームワークを用いて、ビンパッキングおよび静電容量化車両ルーティング問題に関する結果を示す。
MIP と CP-SAT を用いた Google OR-Tools の性能は,ソリューションの品質と計算時間の観点から比較した。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - A Multiperiod Workforce Scheduling and Routing Problem with Dependent
Tasks [0.0]
我々は新しいワークフォーススケジューリングとルーティング問題について研究する。
この問題では、顧客は企業からサービスを要求する。
サービスに属するタスクは異なるチームによって実行され、顧客は1日に1回以上訪問することができる。
論文 参考訳(メタデータ) (2020-08-06T19:31:55Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Time Adaptive Reinforcement Learning [2.0305676256390934]
強化学習(RL)は、Goのような複雑なタスクを、人間よりも強いパフォーマンスで解決することができる。
ここでは、あるタスクの実行から次のタスクの実行に変化する可能性のある、所定の時間制限でタスクを終了するなど、RLエージェントを異なる時間制限に適応するケースについて検討する。
Independent Gamma-Ensemble と n-Step Ensemble の2つのモデルフリーな値ベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-04-18T11:52:07Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。