論文の概要: Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management
- arxiv url: http://arxiv.org/abs/2406.05358v1
- Date: Sat, 8 Jun 2024 05:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:14:35.800158
- Title: Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management
- Title(参考訳): インテンシティ制御のための強化学習:選択型ネットワーク収益管理への応用
- Authors: Huiling Meng, Ningyuan Chen, Xuefeng Gao,
- Abstract要約: 我々は、選択に基づくネットワーク収益管理を用いた強化学習フレームワークを強化制御に適用する。
ジャンプポイントによって生成されたサンプルパスの固有な離散化を利用することで、事前に時間的地平線を識別する必要がないことを示す。
- 参考スコア(独自算出の注目度): 8.08366903467967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intensity control is a type of continuous-time dynamic optimization problems with many important applications in Operations Research including queueing and revenue management. In this study, we adapt the reinforcement learning framework to intensity control using choice-based network revenue management as a case study, which is a classical problem in revenue management that features a large state space, a large action space and a continuous time horizon. We show that by utilizing the inherent discretization of the sample paths created by the jump points, a unique and defining feature of intensity control, one does not need to discretize the time horizon in advance, which was believed to be necessary because most reinforcement learning algorithms are designed for discrete-time problems. As a result, the computation can be facilitated and the discretization error is significantly reduced. We lay the theoretical foundation for the Monte Carlo and temporal difference learning algorithms for policy evaluation and develop policy gradient based actor critic algorithms for intensity control. Via a comprehensive numerical study, we demonstrate the benefit of our approach versus other state-of-the-art benchmarks.
- Abstract(参考訳): インテンシティ制御は、待ち行列や収益管理を含むオペレーションリサーチにおける多くの重要な応用を伴う、連続時間動的最適化問題の一種である。
本研究では,大規模な状態空間,大規模な行動空間,継続的な時間的地平を特徴とする収益管理における古典的な問題である選択型ネットワーク収益管理を事例として,強化学習の枠組みを強み制御に適用する。
ジャンプポイントによって生成されたサンプルパスの固有な離散化、強度制御のユニークな特徴を利用することで、事前の時間的水平線を識別する必要がなく、ほとんどの強化学習アルゴリズムは離散時間問題のために設計されているため、必要であると考えられていた。
その結果、計算が容易になり、離散化誤差が大幅に低減される。
我々はモンテカルロ理論の基礎を築き、政策評価のための時間差学習アルゴリズムと、強度制御のためのポリシー勾配に基づくアクタ批評家アルゴリズムを開発した。
総合的な数値的な研究により、我々のアプローチと他の最先端ベンチマークの利点を実証する。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Semantic-aware Transmission Scheduling: a Monotonicity-driven Deep
Reinforcement Learning Approach [39.681075180578986]
6G時代のサイバー物理システムでは、アプリケーションレベルの性能を保証するためにセマンティック通信が必要である。
本稿では,まず,最適なセマンティック・アウェア・スケジューリング・ポリシーの基本的特性について検討する。
そこで我々は,理論ガイドラインを活用することにより,高度な深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-23T05:45:22Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Understanding A Class of Decentralized and Federated Optimization
Algorithms: A Multi-Rate Feedback Control Perspective [41.05789078207364]
分散最適化アルゴリズムを理解し、分析し、設計するための新しい視点を提供する。
本稿では,分散化/分散化方式を含む分散アルゴリズムを,特定の連続時間フィードバック制御系を識別できることを示す。
論文 参考訳(メタデータ) (2022-04-27T01:53:57Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Managing caching strategies for stream reasoning with reinforcement
learning [18.998260813058305]
ストリーム推論は、継続的なデータ変更よりも効率的な意思決定を可能にする。
我々は、衝突駆動制約学習(CDCL)を用いてレガシーソリューションを効率的に更新する新しいアプローチを提案する。
特に,強化学習の適用性について検討し,学習制約の有用性を継続的に評価する。
論文 参考訳(メタデータ) (2020-08-07T15:01:41Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。