論文の概要: Using Kolmogorov-Smirnov Distance for Measuring Distribution Shift in Machine Learning
- arxiv url: http://arxiv.org/abs/2510.15996v1
- Date: Tue, 14 Oct 2025 08:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.762017
- Title: Using Kolmogorov-Smirnov Distance for Measuring Distribution Shift in Machine Learning
- Title(参考訳): Kolmogorov-Smirnov距離を用いた機械学習における分布シフトの測定
- Authors: Ozan K. Tonguz, Federico Taschin,
- Abstract要約: 特定のアプリケーションでは、このようなエラーはAIとMLシステムの安全性と信頼性にとって重要である可能性がある。
この問題に対処する1つのアプローチは、テストデータの確率分布の偏差をリアルタイムで監視し、測定することである。
我々は,KS距離を用いて分布シフトとそのAIエージェントの性能への影響を定量化する方法を示す。
- 参考スコア(独自算出の注目度): 0.6961253535504978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major problems in Machine Learning (ML) and Artificial Intelligence (AI) is the fact that the probability distribution of the test data in the real world could deviate substantially from the probability distribution of the training data set. When this happens, the predictions of an ML system or an AI agent could involve large errors which is very troublesome and undesirable. While this is a well-known hard problem plaguing the AI and ML systems' accuracy and reliability, in certain applications such errors could be critical for safety and reliability of AI and ML systems. One approach to deal with this problem is to monitor and measure the deviation in the probability distribution of the test data in real time and to compensate for this deviation. In this paper, we propose and explore the use of Kolmogorov-Smirnov (KS) Test for measuring the distribution shift and we show how the KS distance can be used to quantify the distribution shift and its impact on an AI agent's performance. Our results suggest that KS distance could be used as a valuable statistical tool for monitoring and measuring the distribution shift. More specifically, it is shown that even a distance of KS=0.02 could lead to about 50\% increase in the travel time at a single intersection using a Reinforcement Learning agent which is quite significant. It is hoped that the use of KS Test and KS distance in AI-based smart transportation could be an important step forward for gauging the performance degradation of an AI agent in real time and this, in turn, could help the AI agent to cope with the distribution shift in a more informed manner.
- Abstract(参考訳): 機械学習(ML)と人工知能(AI)の大きな問題の1つは、実世界のテストデータの確率分布がトレーニングデータセットの確率分布から大きく逸脱できるという事実である。
これが起こると、MLシステムやAIエージェントの予測には、非常に厄介で望ましくない大きなエラーが伴う可能性がある。
これはAIとMLシステムの正確性と信頼性を悩ませる、よく知られた難しい問題だが、特定のアプリケーションでは、そのようなエラーはAIとMLシステムの安全性と信頼性にとって重要である。
この問題に対処する1つのアプローチは、テストデータの確率分布の偏差をリアルタイムで監視し、測定し、この偏差を補うことである。
本稿では,分布シフトを測定するためにKSテスト(Kolmogorov-Smirnov)を提案するとともに,KS距離を用いて分布シフトとそのAIエージェントの性能への影響を定量化する方法を示す。
以上の結果から,KS距離は分布変化をモニタリングし,測定するための貴重な統計ツールである可能性が示唆された。
より具体的には、KS=0.02の距離であっても、強化学習エージェントを用いて1つの交差点での移動時間が約50%増加することが示される。
AIベースのスマートトランスポートにおけるKSテストとKS距離の使用は、AIエージェントのパフォーマンス劣化をリアルタイムで追跡するための重要なステップであり、それによって、AIエージェントがより情報のある方法で分散シフトに対処するのに役立つことが期待されている。
関連論文リスト
- Dynamic Aware: Adaptive Multi-Mode Out-of-Distribution Detection for Trajectory Prediction in Autonomous Vehicles [8.920589816043298]
軌道予測は自動運転車の安全かつシームレスな運転の中心である。
デプロイメントにおいて、予測モデルは、トレーニングデータと実世界の条件の間の分散シフトに必然的に直面する。
本稿では,複雑な運転環境におけるロバスト検出を実現するための適応機構を提案する。
論文 参考訳(メタデータ) (2025-09-16T22:37:21Z) - Negative impact of heavy-tailed uncertainty and error distributions on the reliability of calibration statistics for machine learning regression tasks [0.0]
重み付き不確実性および誤差分布に対して,MV,MSE,それらの信頼区間の推定は信頼性に欠けることが示されている。
同じ問題が、一般的なenceのような条件付きキャリブレーション統計にも影響することが期待されている。
論文 参考訳(メタデータ) (2024-02-15T16:05:35Z) - Active Inference on the Edge: A Design Study [5.815300670677979]
アクティブ推論(アクティブ推論、英: Active Inference、ACI)とは、脳が知覚情報を常に予測し評価し、長期的サプライズを減らす方法を記述する神経科学の概念である。
我々は,ACIエージェントが要求を満たすことなく,最適化問題を迅速かつ追跡的に解決できたことを示す。
論文 参考訳(メタデータ) (2023-11-17T16:03:04Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - Machine Learning for QoS Prediction in Vehicular Communication:
Challenges and Solution Approaches [46.52224306624461]
最大スループット予測の強化,例えばストリーミングや高精細マッピングアプリケーションについて検討する。
収集したデータの基盤となる特性をよりよく理解することで、マシンラーニング技術上に信頼性を構築することができるかを強調します。
我々は、説明可能なAIを使用して、機械学習が明示的にプログラムされることなく、無線ネットワークの基本原理を学習できることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:29:20Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Uncertainty Prediction for Machine Learning Models of Material
Properties [0.0]
物質特性のAIベースの予測の不確実性は、物質科学におけるAIアプリケーションの成功と信頼性にとって非常に重要である。
このような個人的不確実性を得るための3つの異なるアプローチを比較し、それらを12のML物理特性で検証する。
論文 参考訳(メタデータ) (2021-07-16T16:33:55Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。