論文の概要: A Comparative Study of Dynamic Programming and Reinforcement Learning in Finite Horizon Dynamic Pricing
- arxiv url: http://arxiv.org/abs/2604.14059v1
- Date: Wed, 15 Apr 2026 16:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.642195
- Title: A Comparative Study of Dynamic Programming and Reinforcement Learning in Finite Horizon Dynamic Pricing
- Title(参考訳): 有限水平動的価格設定における動的プログラミングと強化学習の比較検討
- Authors: Lev Razumovskiy, Nikolay Karenin,
- Abstract要約: 本稿では,適応動的プログラミング(DP)法と強化学習(RL)法を体系的に比較する。
構造的複雑性が増大する環境において,その性能を解析する。
我々は、収益パフォーマンス、安定性、制約満足度行動、計算スケーリングを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper provides a systematic comparison between Fitted Dynamic Programming (DP), where demand is estimated from data, and Reinforcement Learning (RL) methods in finite-horizon dynamic pricing problems. We analyze their performance across environments of increasing structural complexity, ranging from a single typology benchmark to multi-typology settings with heterogeneous demand and inter-temporal revenue constraints. Unlike simplified comparisons that restrict DP to low-dimensional settings, we apply dynamic programming in richer, multi-dimensional environments with multiple product types and constraints. We evaluate revenue performance, stability, constraint satisfaction behavior, and computational scaling, highlighting the trade-offs between explicit expectation-based optimization and trajectory-based learning.
- Abstract(参考訳): 本稿では,データから需要を推定する適合動的プログラミング(DP)と,有限水平動的価格問題における強化学習(RL)とを体系的に比較する。
我々は, 構造的複雑性が増大する環境において, 単型ベンチマークから不均一な需要と時間的収益制約を伴うマルチタイポロジー設定まで, それらの性能を解析する。
DPを低次元設定に制限する単純化された比較とは異なり、よりリッチで多次元な環境において、複数の製品タイプと制約を持つ動的プログラミングを適用する。
予測に基づく最適化と軌跡に基づく学習のトレードオフを強調し,収益パフォーマンス,安定性,制約満足度行動,計算スケーリングを評価した。
関連論文リスト
- Auto-Configured Networks for Multi-Scale Multi-Output Time-Series Forecasting [7.883762084227456]
産業予測は、しばしばマルチソースの非同期信号とマルチ出力ターゲットを含む。
現在のプラクティスはアライメント戦略やネットワーク設計の修正であり、事前処理を体系的に共同設計することは困難である。
本稿では,エラーと複雑性のバランスをとる予測モデルのデプロイ可能なParetoセットを出力する自動設定フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-08T21:28:30Z) - Benchmarking Continuous Dynamic Multi-Objective Optimization: Survey and Generalized Test Suite [16.383406982268234]
本稿では,DMOOベンチマークを構築するための原則的フレームワークを提案する。
本研究では,不規則な環境変化をシミュレートするために時間摂動機構を導入し,一般化された時間リンク機構を提案する。
この研究は、動的多目的最適化ベンチマークのための新しい標準を確立し、次世代アルゴリズムの開発と評価のための強力なツールを提供する。
論文 参考訳(メタデータ) (2026-01-04T01:03:20Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - A Comparison Between Decision Transformers and Traditional Offline Reinforcement Learning Algorithms [0.0]
本稿では,従来のオフラインRLアルゴリズムに対するDTの性能を,密度・疎度な報酬設定で評価する。
その結果,DTは報酬密度の変動に対して他の方法に比べて感度が低いことがわかった。
IQLのような従来のバリューベースのメソッドでは、高品質なデータによる高密度な報酬設定のパフォーマンスが向上し、CQLでは、さまざまなデータ品質のバランスの取れたパフォーマンスが提供されていた。
論文 参考訳(メタデータ) (2025-11-20T15:44:11Z) - Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution [0.35932002706017546]
メタオーダーの最適実行における強化学習の利用について検討する。
目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。
我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
論文 参考訳(メタデータ) (2025-11-19T09:26:23Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。