論文の概要: A Rollout-Based Algorithm and Reward Function for Efficient Resource Allocation in Business Processes
- arxiv url: http://arxiv.org/abs/2504.11250v1
- Date: Tue, 15 Apr 2025 14:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 00:26:04.19168
- Title: A Rollout-Based Algorithm and Reward Function for Efficient Resource Allocation in Business Processes
- Title(参考訳): 業務プロセスにおける効率的な資源配分のためのロールアウトアルゴリズムとリワード関数
- Authors: Jeroen Middelhuis, Zaharah Bukhsh, Ivo Adan, Remco Dijkman,
- Abstract要約: 本稿では,ロールアウト型DRLアルゴリズムと報酬関数を提案し,その目的を直接最適化する。
提案アルゴリズムは,動作の異なる実行軌跡を評価することにより,ポリシーを反復的に改善する。
我々の報酬関数は平均サイクル時間を最小化する目的関数を直接分解する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resource allocation plays a critical role in minimizing cycle time and improving the efficiency of business processes. Recently, Deep Reinforcement Learning (DRL) has emerged as a powerful tool to optimize resource allocation policies in business processes. In the DRL framework, an agent learns a policy through interaction with the environment, guided solely by reward signals that indicate the quality of its decisions. However, existing algorithms are not suitable for dynamic environments such as business processes. Furthermore, existing DRL-based methods rely on engineered reward functions that approximate the desired objective, but a misalignment between reward and objective can lead to undesired decisions or suboptimal policies. To address these issues, we propose a rollout-based DRL algorithm and a reward function to optimize the objective directly. Our algorithm iteratively improves the policy by evaluating execution trajectories following different actions. Our reward function directly decomposes the objective function of minimizing the mean cycle time. Maximizing our reward function guarantees that the objective function is minimized without requiring extensive reward engineering. The results show that our method consistently learns the optimal policy in all six evaluated business processes, outperforming the state-of-the-art algorithm that can only learn the optimal policy in two of the evaluated processes.
- Abstract(参考訳): リソース割り当ては、サイクルタイムを最小化し、ビジネスプロセスの効率を改善する上で重要な役割を担います。
近年、ビジネスプロセスにおけるリソース割り当てポリシーを最適化する強力なツールとして、Deep Reinforcement Learning (DRL)が登場している。
DRLフレームワークでは、エージェントは環境とのインタラクションを通じてポリシーを学習し、その決定の質を示す報酬信号のみによってガイドされる。
しかし、既存のアルゴリズムはビジネスプロセスのような動的な環境には適していません。
さらに、既存のDRLベースの手法は、所望の目的を近似するエンジニアリングされた報酬関数に依存しているが、報酬と目的の相違は望ましくない決定や準最適政策につながる可能性がある。
これらの問題に対処するために、ロールアウトに基づくDRLアルゴリズムと報酬関数を提案し、目的を直接最適化する。
提案アルゴリズムは,動作の異なる実行軌跡を評価することにより,ポリシーを反復的に改善する。
我々の報酬関数は平均サイクル時間を最小化する目的関数を直接分解する。
報酬関数の最大化は、広範囲な報酬工学を必要とせず、目的関数が最小化されることを保証する。
その結果,提案手法は,評価された6つのプロセスのすべてにおいて常に最適ポリシーを学習し,評価された2つのプロセスにおいて最適ポリシーのみを学習できる最先端のアルゴリズムよりも優れていることがわかった。
関連論文リスト
- Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
最適目的は強化学習(RL)の基本的側面である
総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。
目的を整合させる2つの方法を提案する。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning [13.908826484332282]
マルチタスク強化学習(Multi-task reinforcement learning, RL)は、複数のタスクを同時に効果的に解決する単一のポリシーを見つけることを目的としている。
本稿では,マルチタスクRLの制約付き定式化を行い,各タスクのパフォーマンスに制約が課せられるタスク間のポリシーの平均性能を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-05-03T19:43:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Learning policies for resource allocation in business processes [0.0]
本稿では,ビジネスプロセスにおける資源配分のための2つの学習手法を提案する。
最初の方法は、リソースをアクティビティに割り当てることでポリシーを学ぶために、Deep Reinforcement Learning (DRL)を活用する。
第2の方法はスコアベースの値関数近似手法であり、リソース割り当ての優先順位付けのためにキュレートされた特徴の集合の重みを学習する。
論文 参考訳(メタデータ) (2023-04-19T21:05:38Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。