論文の概要: An approach of deep reinforcement learning for maximizing the net present value of stochastic projects
- arxiv url: http://arxiv.org/abs/2511.12865v1
- Date: Mon, 17 Nov 2025 01:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.589537
- Title: An approach of deep reinforcement learning for maximizing the net present value of stochastic projects
- Title(参考訳): 確率的プロジェクトにおけるネット提示価値の最大化のための深層強化学習のアプローチ
- Authors: Wei Xu, Fan Yang, Qinyuan Cui, Zhi Chen,
- Abstract要約: 本稿では,個別シナリオ下での活動期間とキャッシュフローを有するプロジェクトについて検討する。
その目的は、流入を加速し流出を遅延させることにより、期待される純現在値(NPV)を最大化することである。
離散時間マルコフ決定過程(MDP)として問題を定式化し、Double Deep Q-Network(DDQN)アプローチを提案する。
- 参考スコア(独自算出の注目度): 10.202559180405432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates a project with stochastic activity durations and cash flows under discrete scenarios, where activities must satisfy precedence constraints generating cash inflows and outflows. The objective is to maximize expected net present value (NPV) by accelerating inflows and deferring outflows. We formulate the problem as a discrete-time Markov Decision Process (MDP) and propose a Double Deep Q-Network (DDQN) approach. Comparative experiments demonstrate that DDQN outperforms traditional rigid and dynamic strategies, particularly in large-scale or highly uncertain environments, exhibiting superior computational capability, policy reliability, and adaptability. Ablation studies further reveal that the dual-network architecture mitigates overestimation of action values, while the target network substantially improves training convergence and robustness. These results indicate that DDQN not only achieves higher expected NPV in complex project optimization but also provides a reliable framework for stable and effective policy implementation.
- Abstract(参考訳): 本稿では,個別シナリオ下での確率的活動期間とキャッシュフローを有するプロジェクトについて検討する。
その目的は、流入を加速し流出を遅延させることにより、期待される純現在値(NPV)を最大化することである。
離散時間マルコフ決定過程 (MDP) として問題を定式化し、Double Deep Q-Network (DDQN) アプローチを提案する。
比較実験により、DDQNは、特に大規模または極めて不確実な環境で、より優れた計算能力、ポリシーの信頼性、適応性を示す従来の厳密な戦略と動的戦略より優れていることが示された。
アブレーション研究により、デュアルネットワークアーキテクチャはアクション値の過大評価を軽減し、ターゲットネットワークはトレーニング収束とロバスト性を大幅に改善することが明らかとなった。
これらの結果から,DDQN は複雑なプロジェクト最適化において高い期待の NPV を達成するだけでなく,安定かつ効果的な政策実装のための信頼性の高いフレームワークも提供することが示唆された。
関連論文リスト
- Deep Reinforcement Learning for Optimal Asset Allocation Using DDPG with TiDE [14.43580976228378]
本研究は,マルコフ決定過程(MDP)における逐次決定課題として最適2段階割当問題を定式化する。
このフレームワークは、シミュレーションされた金融シナリオに基づいて動的ポリシーを開発するための強化学習(RL)機構の適用を可能にする。
我々はDDPG-TiDEを、単純な離散的なQ-learning RLフレームワークとパッシブ・バイ・アンド・ホールド投資戦略と比較した。
論文 参考訳(メタデータ) (2025-08-12T11:59:55Z) - Generative QoE Modeling: A Lightweight Approach for Telecom Networks [6.473372512447993]
本研究では,計算効率,解釈可能性,予測精度のバランスをとる軽量な生成モデリングフレームワークを提案する。
ベクトル量子化(VQ)を前処理技術として用いることにより、連続的なネットワーク機能は事実上離散的な分類記号に変換される。
このVQ-HMMパイプラインは、新しい未知のデータに対する確率的推論をサポートしながら、動的QoEパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2025-04-30T06:19:37Z) - Distribution free uncertainty quantification in neuroscience-inspired deep operators [1.8416014644193066]
エネルギー効率の高いディープラーニングアルゴリズムは、持続可能な未来と実現可能なエッジコンピューティングのセットアップに不可欠である。
本稿では,従来型およびスパイク型ニューラル演算子の不確実性を定量化するために,CRP-O(Conformalized Randomized Prior Operator)フレームワークを提案する。
共形化したRP-VSWNOは,バニラRP-VSWNO,Quantile WNO(Q-WNO),コンフォーマル化されたQuantile WNO(CQ-WNO)と比較して,UQ推定を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-12T15:37:02Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Comprehensive Analysis of Network Robustness Evaluation Based on Convolutional Neural Networks with Spatial Pyramid Pooling [4.366824280429597]
複雑なネットワークを理解し、最適化し、修復するための重要な側面である接続性の堅牢性は、伝統的にシミュレーションを通じて評価されてきた。
空間ピラミッドプールネットワーク(SPP-net)を用いた畳み込みニューラルネットワーク(CNN)モデルの設計により,これらの課題に対処する。
提案したCNNモデルは,全ての除去シナリオにおいて,攻撃曲線とロバストネスの両値の正確な評価を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:54:22Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - On Efficient Uncertainty Estimation for Resource-Constrained Mobile
Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。
Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。
我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-11-11T22:24:15Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。