論文の概要: In-Context Learning for Data-Driven Censored Inventory Control
- arxiv url: http://arxiv.org/abs/2605.14840v1
- Date: Thu, 14 May 2026 13:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.852474
- Title: In-Context Learning for Data-Driven Censored Inventory Control
- Title(参考訳): データ駆動型インベントリ制御のためのインコンテキスト学習
- Authors: Sohom Mukherjee, Anh-Duy Pham, Richard Pibernik, Yunbei Xu,
- Abstract要約: 我々は、検閲または繰り返しニュースベンダ(R-NV)に着目して、意思決定依存の検閲による在庫管理について研究する。
パラメトリックトンプソンサンプリング(TS)に基づく既存のアプローチは、事前のミスマッチの下で脆くすることができる。
In-context Generative rear sample (ICGPS) を提案する。
- 参考スコア(独自算出の注目度): 4.623995431718261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study inventory control with decision-dependent censoring, focusing on the censored or repeated newsvendor (R-NV), where each order quantity determines whether demand is fully observed or censored by sales. Existing approaches based on parametric Thompson sampling (TS) can be brittle under prior mismatch, while offline imputation methods need not transfer to online learning. Motivated by the predictive view of decision making, we combine these ideas by taking oracle actions on learned completions of latent demand. We propose in-context generative posterior sampling (ICGPS), which uses modern generative models that are meta-trained offline and deployed online by in-context autoregressive generation. Theoretically, we show that the Bayesian regret of ICGPS with a learned completion kernel is bounded by the Bayesian regret of a TS benchmark with the ideal completion kernel plus a deployment penalty scaling as $\sqrt{T}$ times the square root of the completion mismatch. This yields a plug-in template for operational problems with known TS regret bounds. For R-NV, we derive sublinear Bayesian regret by reducing censored feedback to bandit convex optimization feedback. We also show that, under reasonable coverage and stability assumptions, the online completion mismatch is controlled by the offline censored predictive mismatch, so offline predictive quality transfers to online performance. Practically, we instantiate ICGPS with ChronosFlow, which combines a frozen time-series transformer backbone with a trainable conditional normalizing-flow head for fast censoring-consistent sampling. In benchmark experiments, ChronosFlow-ICGPS matches correctly specified TS, outperforms myopic and UCB-style baselines, and is robust to prior mismatch and distribution shift. ChronosFlow-ICGPS also performs well for the real-world SuperStore dataset, especially under heavy censoring.
- Abstract(参考訳): 我々は,販売によって需要が完全に監視されているか,あるいは検閲されているかを各注文量で判断する,検閲または繰り返しニュースベンダ(R-NV)に焦点を当てた,意思決定依存の検閲による在庫管理について検討する。
既存のパラメトリックトンプソンサンプリング(TS)に基づくアプローチは、事前のミスマッチの下では不安定であり、オフラインの計算手法はオンライン学習に移行する必要はない。
意思決定の予測的視点に触発された私たちは、潜在需要の学習完了に対して、託宣行動をとることによってこれらのアイデアを組み合わせる。
In-context Generative rear sample (ICGPS) を提案する。
理論的には、学習完了カーネルによるICGPSに対するベイズ的後悔は、理想完備カーネルによるTSベンチマークに対するベイズ的後悔と、展開ペナルティが完了ミスマッチの平方根の2倍の$\sqrt{T}$であることを示す。
これにより、既知のTS後悔境界を持つ運用上の問題に対するプラグインテンプレートが得られる。
R-NV では,Bandit convex 最適化フィードバックに対する検閲されたフィードバックを減らすことで,サブ線形ベイズ的後悔を導出する。
また、適切なカバレッジと安定性の仮定の下では、オンライン完了ミスマッチはオフラインの検閲された予測ミスマッチによって制御され、オフラインの予測品質がオンラインのパフォーマンスに転送されることを示す。
実のところ、ICGPSとChronosFlowは凍結した時系列変換器のバックボーンとトレーニング可能な条件正規化フローヘッドを組み合わせて高速な検閲一貫性サンプリングを行う。
ベンチマーク実験では、ChronosFlow-ICGPSは特定のTSと正しく一致し、ミオピックやUCBスタイルのベースラインを上回り、以前のミスマッチや分布シフトに対して堅牢である。
ChronosFlow-ICGPSは、特に厳しい検閲の下で、現実世界のSuperStoreデータセットでもうまく機能する。
関連論文リスト
- Discrete Flow Matching for Offline-to-Online Reinforcement Learning [10.112779201155005]
DRIFTは、オフラインで事前訓練された連続時間マルコフ連鎖(CTMC)ポリシーを更新するオンラインの微調整手法である。
大規模離散的なアクション空間に対して、参照ポリシーロールアウトからサンプリングされたアクションの小さなサブセット上でアクターを更新する候補セット近似を導入する。
離散的動作RLタスクに対する実験により,本手法が全タスクに対して安定したオフライン-オンライン改善を実現することを示す。
論文 参考訳(メタデータ) (2026-05-12T16:44:02Z) - Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift [24.048629084196904]
オフラインからオンラインへの学習における中心的な課題は、オフラインデータとオンラインデータの分散シフトである。
本稿では, 腕指数をオンライン後部サンプル, ハイブリッド後部サンプル, オンライン平均の中央値として定義する, 新たな中央値に基づくアンカールールを提案する。
我々は,提案アルゴリズムがオフラインデータを安全に活用してオンライン学習を加速することを示す理論的保証を確立する。
論文 参考訳(メタデータ) (2026-05-11T09:50:58Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Optimal training-conditional regret for online conformal prediction [20.643619398558315]
本研究では,未知分布のドリフトを受ける非定常データストリームのオンラインコンフォメーション予測について検討する。
具体的には、急激な変化点と滑らかなドリフトの2種類の分散シフトを持つ独立に生成されたデータに焦点を当てる。
我々は,オンライン完全共形アルゴリズムにおいて,予測セットの適切な制約の下でミニマックス下限と一致する非漸近的後悔保証を確立する。
論文 参考訳(メタデータ) (2026-02-18T15:31:15Z) - Network-Optimised Spiking Neural Network for Event-Driven Networking [2.5941336499463383]
スパイキングニューラルネットワークは、異常検出、ローカルルーティング制御、エッジでの混雑管理など、時間クリティカルなネットワークタスクに適したイベント駆動型計算を提供する。
本稿では,正規化された待ち行列の占有状態と回復資源を符号化したコンパクトな2変数ユニットであるNetwork-Optimized Spiking (NOS)を紹介する。
我々は、データ駆動初期化、リセットシャープネスに基づくホモトピーによる代理段階トレーニング、リソース制約されたデプロイメントのための境界のトポロジによる明確な安定性チェックのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-27T22:31:24Z) - Online Conformal Probabilistic Numerics via Adaptive Edge-Cloud Offloading [52.499838151272016]
本研究は, PLS が生成する HPD 集合を, 長期のカバレッジ要件を保証するため, キャリブレーションする手法を提案する。
提案手法は,クラウドからエッジへの散発的なフィードバックを前提としたオンライン共形予測PLS (OCP-PLS) と呼ばれる。
OCP-PLSの有効性は、カバレッジ、予測セットサイズ、クラウド利用のトレードオフに関する洞察をもたらす実験を通じて検証される。
論文 参考訳(メタデータ) (2025-03-18T17:30:26Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。