論文の概要: Training ML Models with Predictable Failures
- arxiv url: http://arxiv.org/abs/2605.15134v1
- Date: Thu, 14 May 2026 17:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.99298
- Title: Training ML Models with Predictable Failures
- Title(参考訳): 予測可能な失敗を伴うMLモデルのトレーニング
- Authors: Will Schwarzer, Scott Niekum,
- Abstract要約: デプロイメントスケールでMLモデルがフェールする頻度を推定することは、デプロイ前の安全性評価の中心である。
この推定器の予測誤差を有限k分解し、過剰予測に対するバイアスが組み込まれていることを示す。
本稿では,この障害モードに対処する微調整目標である予測可能性損失を提案する。
- 参考スコア(独自算出の注目度): 11.41613361827698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating how often an ML model will fail at deployment scale is central to pre-deployment safety assessment, but a feasible evaluation set is rarely large enough to observe the failures that matter. Jones et al. (2025) address this by extrapolating from the largest k failure scores in an evaluation set to predict deployment-scale failure rates. We give a finite-k decomposition of this estimator's forecast error and show that it has a built-in bias toward over-prediction in the typical case, which is the safety-favorable direction. This bias is offset when the evaluation set misses a rare high-failure mode that the deployment set contains, leaving the forecast to under-predict at deployment scale. We propose a fine-tuning objective, the forecastability loss, that addresses this failure mode. In two proof-of-concept experiments, a language-model password game and an RL gridworld, fine-tuning substantially reduces held-out forecast error while preserving primary-task capability and achieving safety similar to that of supervised baselines.
- Abstract(参考訳): デプロイメントスケールでMLモデルがフェールする頻度を推定することは、デプロイ前の安全性評価の中心であるが、現実的な評価セットは、問題となる障害を監視するのに十分な大きさであることはめったにない。
Jones氏ら(2025)は、デプロイメントスケールの失敗率を予測するための評価セットで、最大のk障害スコアから外挿することで、この問題に対処している。
我々は、この推定器の予測誤差を有限k分解し、典型的な場合の過度予測に対するバイアスが組み込まれていることを示す。
このバイアスは、評価セットがデプロイメントセットに含まれている稀な高障害モードを見逃し、デプロイメントスケールでの予測が過小評価される場合、オフセットされる。
本稿では,この障害モードに対処する微調整目標である予測可能性損失を提案する。
2つの概念実証実験では、言語モデルパスワードゲームとRLグリッドワールドを微調整することで、プライマリタスク能力を保ちながらホールドアウト予測エラーを大幅に低減し、教師付きベースラインと同様の安全性を達成する。
関連論文リスト
- Rethinking Gaussian Trajectory Predictors: Calibrated Uncertainty for Safe Planning [4.546517638153619]
既存の軌道予測器は主に負の対数的損失に依存しており、これは過度あるいは過度に信頼される分布を予測しがちである。
本稿では,予測の不確実性を校正する新たな損失関数を提案する。
提案手法は,異なる状態領域のガウス軌道予測器によって予測される信頼度の信頼性を著しく向上することを示す。
論文 参考訳(メタデータ) (2026-03-11T04:42:49Z) - Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - CUQDS: Conformal Uncertainty Quantification under Distribution Shift for Trajectory Prediction [6.029850098632435]
軌道予測モデルは、有限未来の軌道とその関連する不確実性の両方をオンライン環境で推測することができる。
本研究では、予測された軌道の不確かさを定量化するために、分散シフトフレームワークCUQDSのコンフォーマル不確実性定量化を提案する。
論文 参考訳(メタデータ) (2024-06-17T21:25:36Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Evaluation of Machine Learning Techniques for Forecast Uncertainty
Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。
アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。
本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文 参考訳(メタデータ) (2021-11-29T16:52:17Z) - Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning [1.26990070983988]
モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-05-12T15:04:07Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。