論文の概要: Hierarchical Deep Reinforcement Learning Framework for Multi-Year Asset Management Under Budget Constraints
- arxiv url: http://arxiv.org/abs/2507.19458v1
- Date: Fri, 25 Jul 2025 17:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.054657
- Title: Hierarchical Deep Reinforcement Learning Framework for Multi-Year Asset Management Under Budget Constraints
- Title(参考訳): 予算制約下における多年集合管理のための階層的深層強化学習フレームワーク
- Authors: Amir Fard, Arnold X. -X. Yuan,
- Abstract要約: 本稿では,多年計画に適した階層型深層強化学習手法を提案する。
提案手法では, 課題を, 高水準の予算プランナーと低水準の保守プランナーの2つの階層レベルに分割する。
マクロ予算決定を資産レベルの優先順位付けから構造的に分離し、階層的なソフトアクター・クリティカル・フレームワークに線形プログラミング・プロジェクションを統合することにより、アクション空間の指数的成長を効率的に処理し、厳密な予算順守を確保する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Budget planning and maintenance optimization are crucial for infrastructure asset management, ensuring cost-effectiveness and sustainability. However, the complexity arising from combinatorial action spaces, diverse asset deterioration, stringent budget constraints, and environmental uncertainty significantly limits existing methods' scalability. This paper proposes a Hierarchical Deep Reinforcement Learning methodology specifically tailored to multi-year infrastructure planning. Our approach decomposes the problem into two hierarchical levels: a high-level Budget Planner allocating annual budgets within explicit feasibility bounds, and a low-level Maintenance Planner prioritizing assets within the allocated budget. By structurally separating macro-budget decisions from asset-level prioritization and integrating linear programming projection within a hierarchical Soft Actor-Critic framework, the method efficiently addresses exponential growth in the action space and ensures rigorous budget compliance. A case study evaluating sewer networks of varying sizes (10, 15, and 20 sewersheds) illustrates the effectiveness of the proposed approach. Compared to conventional Deep Q-Learning and enhanced genetic algorithms, our methodology converges more rapidly, scales effectively, and consistently delivers near-optimal solutions even as network size grows.
- Abstract(参考訳): 予算計画とメンテナンスの最適化は、インフラ資産管理にとって不可欠であり、費用対効果と持続可能性を保証する。
しかし、組合せ行動空間、多様な資産劣化、厳格な予算制約、および環境不確実性から生じる複雑さは、既存の手法のスケーラビリティを著しく制限する。
本稿では,多年計画に適した階層型深層強化学習手法を提案する。
提案手法では, 課題を, 高水準の予算プランナーと低水準の保守プランナーの2つの階層レベルに分割する。
マクロ予算決定を資産レベルの優先順位付けから構造的に分離し、階層的なソフトアクター・クリティカル・フレームワークに線形プログラミング・プロジェクションを統合することにより、アクション空間の指数的成長を効率的に処理し、厳密な予算順守を確保する。
様々なサイズの下水道網 (10, 15, 20) を評価するケーススタディでは, 提案手法の有効性が示された。
従来のDeep Q-Learningと改良された遺伝的アルゴリズムと比較して、我々の手法はより高速に収束し、効果的にスケールし、ネットワークサイズが増大しても常に最適に近いソリューションを提供する。
関連論文リスト
- Multi-Year Maintenance Planning for Large-Scale Infrastructure Systems: A Novel Network Deep Q-Learning Approach [0.0]
本稿では,大規模インフラネットワークにおける資産管理戦略を最適化する,新たな強化学習フレームワークを提案する。
ネットワークレベルのMarkov Decision Process(MDP)を個別の資産レベルのMDPに分解することにより、提案フレームワークは計算複雑性を低減し、学習効率を向上し、スケーラビリティを向上させる。
このフレームワークは予算配分機構を通じて年間予算の制約を直接組み込んでおり、メンテナンス計画が最適かつ費用対効果であることを保証する。
論文 参考訳(メタデータ) (2025-07-24T18:27:31Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは効率指向トレーニングにおける探索空間崩壊の課題に対処し、長い出力長の罰則を体系的に長い推論経路から遠ざける。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Decomposability-Guaranteed Cooperative Coevolution for Large-Scale Itinerary Planning [6.565536870180592]
大規模反復計画は、旅行セールスマン問題の変種である。
本稿では,大規模反復計画の分解可能性について分析する。
本稿では,大規模反復計画のための新しい多目的協調進化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-06T14:31:57Z) - On Sequential Fault-Intolerant Process Planning [60.66853798340345]
我々は、逐次的フォールトトレラントプロセス計画(SFIPP)と呼ばれる計画問題を提案し、研究する。
SFIPPは、全ての段階が成功する場合にのみ計画が成功すると判断される多くの連続した多段階決定問題に共通する報酬構造をキャプチャする。
私たちは、異なるアクションを選択して、それぞれのステージで成功の確率を未知にする必要がある設定のために、確実に厳密なオンラインアルゴリズムを設計します。
論文 参考訳(メタデータ) (2025-02-07T15:20:35Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Hierarchical Upper Confidence Bounds for Constrained Online Learning [4.8951183832371]
階層的制約付き帯域幅(HCB)フレームワークを導入し、コンテキスト的帯域幅問題を拡張して階層的決定構造とマルチレベル制約を組み込む。
我々の理論的解析はHC-UCBのサブ線形後悔境界を確立し、すべての階層レベルでの制約満足度を高い確率で保証する。
論文 参考訳(メタデータ) (2024-10-22T17:41:14Z) - A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints [66.61399765513383]
We developed a BLOCC algorithm to tackle BiLevel Optimization problems with Coupled Constraints。
2つのよく知られた実世界のアプリケーションでその効果を実証する。
論文 参考訳(メタデータ) (2024-06-14T15:59:36Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Welfare Maximization Algorithm for Solving Budget-Constrained
Multi-Component POMDPs [2.007262412327553]
本稿では,多成分予算制約POMDPの最適ポリシを求めるアルゴリズムを提案する。
提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-18T01:43:47Z) - Hierarchical Constrained Stochastic Shortest Path Planning via Cost
Budget Allocation [16.150627252426936]
本稿では,これら2つの重要な要件を満たす階層的制約付き最短経路問題(HC-SSP)を提案する。
結果として生じる問題は非常に複雑であり、最適な解を見つけるのが難しくなる。
提案手法は,提案手法を高速かつ漸進的に更新するために,ブランチ・アンド・バウンド・スキームに基づく低レベルの計画問題に対して,コスト予算を反復的に割り当てるアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-11T01:25:38Z) - Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A
Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。
損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。
解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-04-13T13:52:22Z) - FactorizeNet: Progressive Depth Factorization for Efficient Network
Architecture Exploration Under Quantization Constraints [93.4221402881609]
量子化制約下での効率的なCNNアーキテクチャ探索のためのプログレッシブ・ディープ・ファクタライズ・ストラテジーを導入する。
アルゴリズムによって深度分解の粒度を漸進的に増大させることで,層状分布の微細で低レベルな解析が可能となる。
このようなプログレッシブな深度分解戦略は、最適深度分解マクロ構造設計の効率的な同定を可能にする。
論文 参考訳(メタデータ) (2020-11-30T07:12:26Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。