論文の概要: Thompson Sampling for Repeated Newsvendor
- arxiv url: http://arxiv.org/abs/2502.09900v1
- Date: Fri, 14 Feb 2025 04:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:05.954974
- Title: Thompson Sampling for Repeated Newsvendor
- Title(参考訳): 繰り返しニュースベンダーのためのトンプソンサンプリング
- Authors: Weizhou Zhang, Chen Li, Hanzhang Qin, Yunbei Xu, Ruihao Zhu,
- Abstract要約: 本稿では,検閲されたフィードバックによるオンライン学習におけるトンプソンサンプリング(TS)の性能に着目した。
以上の結果から,TSは未知の需要パラメータを正確に推定し,ほぼ最適の注文決定を導いた。
この研究は、検閲されたフィードバックを用いて、一般的なオンライン学習問題を探求する基盤も築き上げた。
- 参考スコア(独自算出の注目度): 5.138044649357501
- License:
- Abstract: In this paper, we investigate the performance of Thompson Sampling (TS) for online learning with censored feedback, focusing primarily on the classic repeated newsvendor model--a foundational framework in inventory management--and demonstrating how our techniques can be naturally extended to a broader class of problems. We model demand using a Weibull distribution and initialize TS with a Gamma prior to dynamically adjust order quantities. Our analysis establishes optimal (up to logarithmic factors) frequentist regret bounds for TS without imposing restrictive prior assumptions. More importantly, it yields novel and highly interpretable insights on how TS addresses the exploration-exploitation trade-off in the repeated newsvendor setting. Specifically, our results show that when past order quantities are sufficiently large to overcome censoring, TS accurately estimates the unknown demand parameters, leading to near-optimal ordering decisions. Conversely, when past orders are relatively small, TS automatically increases future order quantities to gather additional demand information. Extensive numerical simulations further demonstrate that TS outperforms more conservative and widely-used approaches such as online convex optimization, upper confidence bounds, and myopic Bayesian dynamic programming. This study also lays the foundation for exploring general online learning problems with censored feedback.
- Abstract(参考訳): 本稿では,オンライン学習におけるトンプソンサンプリング(TS)の性能について,古典的反復ニューズベンダーモデルを中心に検討し,在庫管理の基礎的枠組みとして,我々の技術がより広範な問題にどのように自然に拡張できるかを実証する。
我々はワイブル分布を用いて需要をモデル化し、注文量を動的に調整する前にガンマでTSを初期化する。
我々の分析は、TSに対する最適(対数的要因まで)頻繁な後悔境界を制約的な事前仮定を課すことなく確立する。
さらに重要なことは、TSが繰り返しニュースベンダの設定において、探索と探索のトレードオフにどう対処するかに関して、新しく、非常に解釈可能な洞察をもたらすことである。
具体的には、過去の注文量が検閲を克服するのに十分な量である場合、TSは未知の需要パラメータを正確に推定し、ほぼ最適の注文決定につながることを示す。
逆に、過去の注文が比較的小さい場合、TSは自動的に将来の注文量を増やし、追加の需要情報を集める。
大規模な数値シミュレーションにより、TSはオンライン凸最適化、高信頼境界、ミオピックベイズ動的プログラミングなど、より保守的で広く使われているアプローチよりも優れていることが示された。
この研究は、検閲されたフィードバックで一般的なオンライン学習問題を探求する基盤も築き上げた。
関連論文リスト
- An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces [54.37047702755926]
我々は完全なフィードバックの下でオンライン学習のためのトンプソンサンプリングの分析法を開発した。
我々は、後悔の分解を、学習者が先入観を期待したことを後悔させ、また、過度な後悔と呼ぶ先延ばし的な用語を示します。
論文 参考訳(メタデータ) (2025-02-20T18:10:12Z) - Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex
Optimization [0.8602553195689513]
管理者がその累積損失を最小限に抑えるため、管理者が部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。
我々は,非I.d.要求問題やステートフル・ダイナミクスの問題に対して,証明可能な保証を有するオンラインアルゴリズムであるMaxCOSDを提案する。
論文 参考訳(メタデータ) (2023-07-12T10:00:22Z) - The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models [56.31310344616837]
トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-02-28T08:42:42Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。