論文の概要: Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning
- arxiv url: http://arxiv.org/abs/2606.02595v1
- Date: Fri, 22 May 2026 22:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.573662
- Title: Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning
- Title(参考訳): 短期的経時的動的価格設定のためのヒューマン・イン・ザ・ループのコンテキスト帯域:歴史的ウォームアップと承認型ライブ学習の構造的等価性
- Authors: Oleg Miroshnichenko,
- Abstract要約: 本稿ではHuman-in-the-Loop Gated Bandit(HITL-GB)フレームワークを紹介する。
歴史的価格データは,帯域幅後部を初期化するためのオンラインウォームアップデータと構造的に等価であることを示す。
我々は、承認された報酬信号を定式化し、過去のエピソードから規則化されたリッジ・リグレス・ウォームアップ手順を導出し、実際のSTR生産データに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic pricing in short-term rental (STR) markets presents a distinctive challenge for online learning algorithms: pricing decisions carry significant financial risk, operators require explainability, and market feedback is sparse (one booking outcome per listed night). We introduce the Human-in-the-Loop Gated Bandit (HITL-GB) framework, in which a contextual bandit algorithm generates price recommendations but a human agent retains authority to accept, modify, or reject each recommendation before it is applied. We show that under this approval constraint, historical pricing data -- collected under a prior deterministic policy -- is structurally equivalent to on-policy warm-up data for initialising the bandit's posterior, bypassing the weeks-to-months cold-start period that renders pure online bandit learning impractical in sparse-feedback markets. We formalise the approval-gated reward signal, derive a regularised ridge-regression warm-up procedure from historical episodes, and validate the approach on real STR production data (anonymised urban market, 2 rooms, April 2022 -- April 2026, 1,461 nightly pricing episodes). Our warm-up procedure compresses effective cold-start from ~150 episodes to ~30 episodes when initialising agents from the Hierarchical Factored Thompson Sampling (HF-TS) family. We further argue that the structural equivalence result is domain-agnostic: any high-stakes domain where human approval is legally or operationally required -- including clinical drug dosing, credit origination, content moderation, and radiological diagnosis -- satisfies the same conditions and benefits from the same warm-up strategy. In regulated industries, mandatory human oversight is thus a statistical asset rather than a deployment constraint.
- Abstract(参考訳): 短期賃貸(STR)市場における動的な価格設定は、オンライン学習アルゴリズムにおいて顕著な課題である。
本稿では,Human-in-the-Loop Gated Bandit(HITL-GB)フレームワークを紹介する。
この承認制約の下では、従来の決定主義的政策の下で収集された歴史的価格データは、スパースフィードバック市場において純粋なオンラインバンディット学習を非現実的に行う数週間から数ヶ月のコールドスタート期間を超越して、バンドイットの後部の初期化のための政治上のウォームアップデータと構造的に等価であることが示される。
我々は、承認された報酬シグナルを定式化し、歴史的エピソードからレギュラー化したリッジ・リグレス・ウォームアップ手順を導き、実際のSTR生産データ(匿名化都市市場、2部屋、2022年4月~2026年4月、夜間価格エピソード1,461件)に対するアプローチを検証する。
ウォームアップ法では,階層因子トンプソンサンプリング(HF-TS)ファミリーのエージェントを初期化する際に,150回から30回までの効果的なコールドスタートを圧縮する。
さらに、構造的等価性の結果はドメインに依存しないと主張する。ヒトの承認が法的にまたは運用上必要となるハイテイクドメイン -- 臨床薬の服用、クレジットのオリジン化、コンテンツモデレーション、放射線診断など -- は、同じ条件を満たすと同時に、同じウォームアップ戦略の恩恵を受ける。
規制産業では、強制的な人的監視は、配置制約よりも統計資産である。
関連論文リスト
- Monitoring State Transitions in Markovian Systems with Sampling Cost [65.4151496405543]
自然なアプローチは、予想される予測損失がクエリコスト以下で、クエリがなければいつ発生するかを予測する、欲張りのポリシーである。
最適(OPT)戦略は状態依存のしきい値ポリシである。
遷移確率が未知の場合、我々は、グレディポリシーの予測勾配降下(PSGD)に基づく学習変種を提案する。
論文 参考訳(メタデータ) (2025-10-25T15:07:37Z) - Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand [7.289672463326423]
オフライン機能に基づく価格と在庫管理の問題について検討する。
私たちの目標は、オフラインデータセットを活用して、最適な価格と在庫管理ポリシを見積もることです。
論文 参考訳(メタデータ) (2025-04-14T02:57:51Z) - Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [8.981637739384674]
意思決定者は、観測可能なコンテキストに基づいてパーソナライズされた価格を投稿する。
それぞれのバリュエーションはコンテキストの未知の潜在関数としてモデル化され、独立性と同一に分散された市場ノイズによって破損する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Balanced Off-Policy Evaluation for Personalized Pricing [3.296526804364952]
我々は、特徴情報、歴史的価格決定、バイナリ実現需要からなるデータを持つパーソナライズされた価格問題を考える。
目標は、機能と価格をマッピングするパーソナライズされた価格ポリシーの、非政治的な評価を行うことだ。
Kallusのバランスの取れた政策評価フレームワークを基盤として、価格アプリケーションに適した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-24T16:44:46Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。