Fugu-MT 論文翻訳(概要): When Your Model Stops Working: Anytime-Valid Calibration Monitoring

論文の概要: When Your Model Stops Working: Anytime-Valid Calibration Monitoring

arxiv url: http://arxiv.org/abs/2603.13156v1
Date: Fri, 13 Mar 2026 16:50:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:12.199011
Title: When Your Model Stops Working: Anytime-Valid Calibration Monitoring
Title（参考訳）: モデルが機能しなくなるとき - 任意の変数のキャリブレーション監視
Authors: Tristan Farran,
Abstract要約: PITMonitorは、確率積分変換の分布シフトを検出する、任意の値のキャリブレーション固有のモニタである。リバーのFriedmanDriftベンチマークでは、PITMonitor検出率は最強のベースラインと競合する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Practitioners monitoring deployed probabilistic models face a fundamental trap: any fixed-sample test applied repeatedly over an unbounded stream will eventually raise a false alarm, even when the model remains perfectly stable. Existing methods typically lack formal error guarantees, conflate alarm time with changepoint location, and monitor indirect signals that do not fully characterize calibration. We present PITMonitor, an anytime-valid calibration-specific monitor that detects distributional shifts in probability integral transforms via a mixture e-process, providing Type I error control over an unbounded monitoring horizon as well as Bayesian changepoint estimation. On river's FriedmanDrift benchmark, PITMonitor achieves detection rates competitive with the strongest baselines across all three scenarios, although detection delay is substantially longer under local drift.
Abstract（参考訳）: デプロイされた確率的モデルを監視している実践者は、基本的な罠に直面している。既存の手法は、通常、正式なエラー保証を欠き、アラーム時間を変更点位置と分割し、キャリブレーションを完全に特徴付けない間接的な信号を監視する。 PITMonitorは,確率積分変換の分布変化を混合電子プロセスで検出し,非有界な監視地平線上でのタイプIエラー制御とベイズ変点推定を行う。リバーのFriedmanDriftベンチマークでは、PITMonitorは3つのシナリオで最強のベースラインと競合する検出速度を達成した。

関連論文リスト

Testing For Distribution Shifts with Conditional Conformal Test Martingales [20.369245689839822]
本研究では, コンフォメーションテストマーチンガレット(CTM)を固定条件下で動作させる任意の分布シフトを検出するシーケンシャルテストを提案する。既存のCTM検出器は、各試料の基準セットを継続的に成長させ、新しい試料が過去の観測とどのように非典型的であるかを評価することによって、試験マルティンガレを構築する。この設計は、任意の時間価のタイプIエラー制御をもたらすが、テスト時間汚染に悩まされる: 変更後、ポストシフト観測が参照セットに入り、分布シフトの証拠を減らし、検出遅延を増大させ、消費電力を減少させる。我々の手法は標準よりも速くシフトを検出する
論文参考訳（メタデータ） (2026-02-14T18:47:26Z)
Technical note on Sequential Test-Time Adaptation via Martingale-Driven Fisher Prompting [3.5808917363708743]
M-FISHERは、ストリーミングデータにおける逐次分布シフト検出と安定した適応のための方法である。検出のために、非整合性スコアから指数的マーチンゲールを構築し、Villeの不等式を適用し、偽アラーム制御の時間一様保証を得る。適応のために、フィッシャー条件によるプロンプトパラメータの更新は、分布多様体上の自然な勾配降下を実装していることを示す。
論文参考訳（メタデータ） (2025-10-04T15:31:26Z)
Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文参考訳（メタデータ） (2025-09-27T20:57:48Z)
WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [22.789611187514975]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文参考訳（メタデータ） (2025-05-07T17:53:47Z)
Deployment Prior Injection for Run-time Calibratable Object Detection [58.636806402337776]
検出器に追加のグラフ入力を導入し、事前にグラフが配置コンテキストを表す。テストフェーズでは、事前に適切なデプロイメントコンテキストをグラフ編集を通じて検出器に注入することができる。事前の配置が分かっていない場合でも、検出器は独自の予測を用いて、事前に近似した配置を用いて自己校正を行うことができる。
論文参考訳（メタデータ） (2024-02-27T04:56:04Z)
Tracking the risk of a deployed model and detecting harmful distribution shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文参考訳（メタデータ） (2021-10-12T17:21:41Z)
Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。本手法は精度と不確実性の両方を向上することを示す。
論文参考訳（メタデータ） (2021-09-27T01:09:08Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。