論文の概要: Adaptive Control of Resource Flow to Optimize Construction Work and Cash
Flow via Online Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.10574v1
- Date: Thu, 20 Jul 2023 04:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:48:41.819753
- Title: Adaptive Control of Resource Flow to Optimize Construction Work and Cash
Flow via Online Deep Reinforcement Learning
- Title(参考訳): オンライン深層強化学習による建設作業とキャッシュフローの最適化のための資源フローの適応制御
- Authors: Can Jiang, Xin Li, Jia-Rui Lin, Ming Liu, Zhiliang Ma
- Abstract要約: 建設における既存のアプローチは、不確実性のある動的環境における資源フローの最適制御を達成できなかった。
本稿では,建設工事の作業とキャッシュフローを最適化するために,資源フローを適応制御するモデルと手法を提案する。
- 参考スコア(独自算出の注目度): 8.379468487488255
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to complexity and dynamics of construction work, resource, and cash
flows, poor management of them usually leads to time and cost overruns,
bankruptcy, even project failure. Existing approaches in construction failed to
achieve optimal control of resource flow in a dynamic environment with
uncertainty. Therefore, this paper introducess a model and method to adaptive
control the resource flows to optimize the work and cash flows of construction
projects. First, a mathematical model based on a partially observable Markov
decision process is established to formulate the complex interactions of
construction work, resource, and cash flows as well as uncertainty and
variability of diverse influence factors. Meanwhile, to efficiently find the
optimal solutions, a deep reinforcement learning (DRL) based method is
introduced to realize the continuous adaptive optimal control of labor and
material flows, thereby optimizing the work and cash flows. To assist the
training process of DRL, a simulator based on discrete event simulation is also
developed to mimic the dynamic features and external environments of a project.
Experiments in simulated scenarios illustrate that our method outperforms the
vanilla empirical method and genetic algorithm, possesses remarkable capability
in diverse projects and external environments, and a hybrid agent of DRL and
empirical method leads to the best result. This paper contributes to adaptive
control and optimization of coupled work, resource, and cash flows, and may
serve as a step stone for adopting DRL technology in construction project
management.
- Abstract(参考訳): 建設作業、資源、キャッシュフローの複雑さとダイナミクスのために、それらの管理の貧弱さは、通常、時間とコストのオーバーラン、破産、さらにはプロジェクトの失敗につながる。
既存の手法では不確実性のある動的環境における資源フローの最適制御を達成できなかった。
そこで本稿では,建設プロジェクトの作業とキャッシュフローを最適化するために,資源フローを適応的に制御するモデルと手法を提案する。
まず, 部分観測可能なマルコフ決定過程に基づく数理モデルを確立し, 建設作業, 資源, キャッシュフローの複雑な相互作用, 多様な影響因子の不確実性と変動を定式化する。
一方、最適解を効率的に見つけるために、労働と物質フローの適応的最適制御を実現するために、深層強化学習(DRL)に基づく手法を導入し、作業とキャッシュフローを最適化する。
drlのトレーニングプロセスを支援するために、プロジェクトの動的特徴と外部環境を模倣するために、離散イベントシミュレーションに基づくシミュレータも開発されている。
シミュレーション実験により,提案手法がバニラ経験的手法と遺伝的アルゴリズムを上回り,多様なプロジェクトや外部環境において顕著な能力を有し,drlと経験的手法のハイブリッドエージェントが最良の結果をもたらすことを示した。
本稿では,共同作業,資源,キャッシュフローの適応制御と最適化に寄与し,建設プロジェクト管理におけるDRL技術導入の一歩となる可能性がある。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,政策最適化を支援するために,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用する訓練アルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-03-21T14:28:43Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Improvement of Computational Performance of Evolutionary AutoML in a
Heterogeneous Environment [0.0]
グラフ構造を持つパイプラインのモデリングにおける進化的最適化の質を高めるためのモジュラー手法を提案する。
実装されたアルゴリズムは、オープンソースのフレームワークであるFEDOTの一部として利用可能である。
論文 参考訳(メタデータ) (2023-01-12T15:59:04Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。