論文の概要: Choice-Model-Assisted Q-learning for Delayed-Feedback Revenue Management
- arxiv url: http://arxiv.org/abs/2602.02283v1
- Date: Mon, 02 Feb 2026 16:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.287411
- Title: Choice-Model-Assisted Q-learning for Delayed-Feedback Revenue Management
- Title(参考訳): 遅延フィードバック収益管理のための選択モデル支援Qラーニング
- Authors: Owen Shen, Patrick Jaillet,
- Abstract要約: 遅延フィードバックによる収益管理のための強化学習について検討し、予約後の顧客キャンセルや変更によってかなりの価値が決定される。
本稿では,学習対象の遅延成分を定式化した部分的世界モデルとして,キャリブレーション付き離散選択モデルを用いたアンフィスモデル支援RLを提案する。
- 参考スコア(独自算出の注目度): 21.145677259232354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning for revenue management with delayed feedback, where a substantial fraction of value is determined by customer cancellations and modifications observed days after booking. We propose \emph{choice-model-assisted RL}: a calibrated discrete choice model is used as a fixed partial world model to impute the delayed component of the learning target at decision time. In the fixed-model deployment regime, we prove that tabular Q-learning with model-imputed targets converges to an $O(\varepsilon/(1-γ))$ neighborhood of the optimal Q-function, where $\varepsilon$ summarizes partial-model error, with an additional $O(t^{-1/2})$ sampling term. Experiments in a simulator calibrated from 61{,}619 hotel bookings (1{,}088 independent runs) show: (i) no statistically detectable difference from a maturity-buffer DQN baseline in stationary settings; (ii) positive effects under in-family parameter shifts, with significant gains in 5 of 10 shift scenarios after Holm--Bonferroni correction (up to 12.4\%); and (iii) consistent degradation under structural misspecification, where the choice model assumptions are violated (1.4--2.6\% lower revenue). These results characterize when partial behavioral models improve robustness under shift and when they introduce harmful bias.
- Abstract(参考訳): 遅延フィードバックによる収益管理のための強化学習について検討し、予約後の顧客キャンセルや変更によってかなりの価値が決定される。
本稿では,学習対象の遅延成分を決定時間に含意する固定部分世界モデルとして,キャリブレーション付き離散選択モデルを用いて,emph{choice-model-assisted RL}を提案する。
固定モデル配置方式では、モデル入力対象を持つ表型Q-ラーニングが最適Q-関数の近傍に$O(\varepsilon/(1-γ)$で収束し、$\varepsilon$が部分モデル誤差を要約し、追加の$O(t^{-1/2})$サンプリング項が与えられる。
61{,}619ホテル予約(1{,}088独立走行)から校正されたシミュレータの実験
i) 静止条件下での成熟度バッファDQNベースラインと統計的に検出可能な差はない。
(II)Holm-Bonferroni補正(最大12.4\%)後の10のシフトシナリオのうち5つのシフトシナリオで有意な効果が認められた戸内パラメータシフトによる正の効果
三 構造的誤用による一貫した劣化、選択モデル仮定違反(1.4~2.6%減収)。
これらの結果は、部分的行動モデルがシフト下で堅牢性を改善し、有害なバイアスを導入したときに特徴付けられる。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文 参考訳(メタデータ) (2024-06-07T12:43:17Z) - Causal Q-Aggregation for CATE Model Selection [20.39573621844382]
二重ロバストな損失を用いたQaggregationに基づく新しいCATEアンサンブル手法を提案する。
本研究の主な成果は,因果的Q集合が統計的に最適なモデル選択後悔率を達成することである。
論文 参考訳(メタデータ) (2023-10-25T19:27:05Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。