論文の概要: Learning Debt and Cost-Sensitive Bayesian Retraining: A Forecasting Operations Framework
- arxiv url: http://arxiv.org/abs/2604.06438v1
- Date: Tue, 07 Apr 2026 20:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.228835
- Title: Learning Debt and Cost-Sensitive Bayesian Retraining: A Forecasting Operations Framework
- Title(参考訳): 負債とコストに敏感なベイズリトレーニングを学習する - 予測操作フレームワーク
- Authors: Harrison Katz,
- Abstract要約: 私たちは、学習の負債を、デプロイされた後部と継続的に更新された後部との相違として定義します。
我々は余剰な定式化の下で1段階のベイズ再訓練規則を導出する。
Airbnb生産の振り返りのバックテストでは、同じ決定ロジックが、既知の支払いポリシショックに対してどのように振る舞うかが示されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasters often choose retraining schedules by convention rather than by an explicit decision rule. This paper gives that decision a posterior-space language. We define learning debt as the divergence between the deployed and continuously updated posteriors, define actionable staleness as the policy-relevant latent state, and derive a one-step Bayes retraining rule under an excess-loss formulation. In an online conjugate simulation using the exact Kullback-Leibler divergence between deployed and shadow normal-inverse-gamma posteriors, a debt-filter beats a default 10-period calendar baseline in 15 of 24 abrupt-shift cells, all 24 gradual-drift cells, and 17 of 24 variance-shift cells, and remains below the best fixed cadence in a grid of cadences (5, 10, 20, and 40 periods) in 10, 24, and 17 cells, respectively. Fixed-threshold CUSUM remains a strong benchmark, while a proxy filter built from indirect diagnostics performs poorly. A retrospective Airbnb production backtest shows how the same decision logic behaves around a known payment-policy shock.
- Abstract(参考訳): 予測者は、明示的な決定規則ではなく、慣例によってスケジュールの再訓練を選択することが多い。
本稿では、その決定を後宇宙言語とする。
我々は、学習債務を、展開と継続的な更新の相違として定義し、行動可能な安定化を政策関連潜在状態として定義し、余剰な定式化の下で一段階のベイズ再訓練規則を導出する。
展開された正常-逆ガンマ後部と影の逆ガンマ後部の正確なKullback-Leibler偏差を用いたオンライン共役シミュレーションにおいて、債務フィルタは、24の突然シフトセル15、24の漸減セルすべて、24の分散シフトセル17においてデフォルトの10周期カレンダーベースラインを破り、それぞれ10,10,20,40周期のケイデンスグリッド(5,10,40周期)において最高の固定ケイデンス以下にとどまる。
固定閾値CUSUMは依然として強力なベンチマークであり、間接診断で構築されたプロキシフィルタは性能が良くない。
Airbnb生産の振り返りのバックテストでは、同じ決定ロジックが、既知の支払いポリシショックに対してどのように振る舞うかが示されています。
関連論文リスト
- Retraining as Approximate Bayesian Inference [0.0]
ハリソン・カッツ(Harrison Katz)は、再訓練は計算制約の下で近似ベイズ推論としてよりよく理解できると主張している。
この記事では、Katz氏がポリシーの再トレーニングのための決定論的フレームワークを提供する。
その結果はエビデンスベースのトリガで、カレンダーのスケジュールを置き換え、ガバナンスを監査可能にする。
論文 参考訳(メタデータ) (2026-03-26T14:20:01Z) - When Is Generalized Bayes Bayesian? A Decision-Theoretic Characterization of Loss-Based Updating [1.0885910878567457]
一般ベイズ、ギブズ、準後部などの損失ベースの更新は、確率をユーザ・チョーゼンの損失に置き換え、指数的傾きによって後部のような分布を生成する。
損失ベース後部が通常のベイズと一致することは、損失がスケールし、データのみの用語である負のログライクな状態である場合に限る。
論文 参考訳(メタデータ) (2026-02-02T03:10:32Z) - Kinematic Tokenization: Optimization-Based Continuous-Time Tokens for Learnable Decision Policies in Noisy Time Series [0.2538209532048867]
トランスフォーマーは離散トークン用に設計されているが、多くの実世界の信号はノイズサンプリングによって観測される連続的なプロセスである。
最適化に基づく連続時間表現であるKinematic Tokenizationを導入する。
本研究では,明示的な連続時間トークンにより,雑音を伴う時系列における選択的決定ポリシーの学習性と校正性を向上できることを示す。
論文 参考訳(メタデータ) (2026-01-15T00:21:02Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - RSPO: Regularized Self-Play Alignment of Large Language Models [54.593523736962]
Regularized Self-Play Policy Optimization (RSPO) は、事前のメソッドを統一し、様々な正規化ツールのプラグイン・アンド・プレイ統合を可能にする汎用的でモジュール化されたフレームワークである。
20ドル以上の微調整Mistral-7B-Instructモデルに関する実証研究により、前方KL偏差正規化は応答長を減少させる一方、逆KL偏差は生の利得率を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-24T22:43:21Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Stopping Criterion Design for Recursive Bayesian Classification:
Analysis and Decision Geometry [11.399206131178104]
本稿では, 後進状態に関する幾何学的解釈を提案する。
状態後部の最大値を超える信頼しきい値が硬さに悩まされていることを示す。
そこで我々は,その限界を克服するための幾何学的洞察を持つ新しい停止・終了基準を提案する。
論文 参考訳(メタデータ) (2020-07-30T16:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。