論文の概要: When the Past Misleads: Rethinking Training Data Expansion Under Temporal Distribution Shifts
- arxiv url: http://arxiv.org/abs/2509.01060v2
- Date: Thu, 04 Sep 2025 17:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:59.090008
- Title: When the Past Misleads: Rethinking Training Data Expansion Under Temporal Distribution Shifts
- Title(参考訳): 過去の過ち - 時間分布シフトによるトレーニングデータ拡張の再考
- Authors: Chengyuan Yao, Yunxuan Tang, Christopher Brooks, Rene F. Kizilcec, Renzhe Yu,
- Abstract要約: 本研究では,過去のデータトレーニングウィンドウの拡大が,予測モデルの性能とアルゴリズム的公正性に与える影響について検討する。
公平性の観点から言えば、モデルがより偏りのある予測を生成するのは、概念のシフトの大きさが社会デマログラフ群によって異なる場合である。
トレーニングウィンドウを拡張する際には、コンセプトシフトがパフォーマンスの劣化に重要な要因であることが分かりました。
- 参考スコア(独自算出の注目度): 1.2797107590517534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predictive models are typically trained on historical data to predict future outcomes. While it is commonly assumed that training on more historical data would improve model performance and robustness, data distribution shifts over time may undermine these benefits. This study examines how expanding historical data training windows under covariate shifts (changes in feature distributions) and concept shifts (changes in feature-outcome relationships) affects the performance and algorithmic fairness of predictive models. First, we perform a simulation study to explore scenarios with varying degrees of covariate and concept shifts in training data. Absent distribution shifts, we observe performance gains from longer training windows though they reach a plateau quickly; in the presence of concept shift, performance may actually decline. Covariate shifts alone do not significantly affect model performance, but may complicate the impact of concept shifts. In terms of fairness, models produce more biased predictions when the magnitude of concept shifts differs across sociodemographic groups; for intersectional groups, these effects are more complex and not simply additive. Second, we conduct an empirical case study of student retention prediction, a common machine learning application in education, using 12 years of student records from 23 minority-serving community colleges in the United States. We find concept shifts to be a key contributor to performance degradation when expanding the training window. Moreover, model fairness is compromised when marginalized populations have distinct data distribution shift patterns from their peers. Overall, our findings caution against conventional wisdom that "more data is better" and underscore the importance of using historical data judiciously, especially when it may be subject to data distribution shifts, to improve model performance and fairness.
- Abstract(参考訳): 予測モデルは、通常、将来の成果を予測するために歴史的データに基づいて訓練される。
より歴史的なデータに対するトレーニングはモデルの性能と堅牢性を改善すると一般的に仮定されるが、時間とともにデータ分散の変化はこれらの利点を損なう可能性がある。
本研究では,共変量シフト(特徴分布の変化)と概念シフト(特徴出力関係の変化)の下での履歴データトレーニングウィンドウの拡張が,予測モデルの性能とアルゴリズム的公正性にどのように影響するかを検討する。
まず,学習データにおける共変量や概念シフトの程度が異なるシナリオを探索するシミュレーション研究を行う。
分布シフトが欠如している場合、より長いトレーニングウィンドウが高原に素早く到達するのを観察し、概念シフトがある場合には、実際に性能が低下する可能性がある。
共変量シフトだけではモデルパフォーマンスにはあまり影響しないが、概念シフトの影響を複雑にする可能性がある。
公正性の観点からは、モデルは、概念のシフトの大きさが社会デミノグラフ群によって異なるときにより偏りのある予測を生成する。
第2に、米国23のマイノリティ・コミュニティ・カレッジの12年間の学生記録を用いて、教育における一般的な機械学習応用である留学生保持予測の実証的研究を行った。
トレーニングウィンドウを拡張する際には、コンセプトシフトがパフォーマンスの劣化に重要な要因であることが分かりました。
さらに、モデルフェアネスは、疎外人口が仲間と異なるデータ分散シフトパターンを持つ場合、妥協される。
全体として,従来の知恵を「より多くのデータがより優れている」と批判し,特にデータ分散シフトに直面する場合の歴史的データの利用の重要性を強調し,モデルの性能と公平性を向上させることを目的とした。
関連論文リスト
- Generalization vs. Specialization under Concept Shift [12.196508752999797]
我々は、概念シフトの下で尾根回帰を分析する。
熱力学限界における予測リスクの正確な表現を導出する。
我々のMNISTとFashionMNISTに関する実験は、この興味深い挙動が分類問題にも存在することを示唆している。
論文 参考訳(メタデータ) (2024-09-23T22:30:28Z) - Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Context matters for fairness -- a case study on the effect of spatial
distribution shifts [10.351739012146378]
本稿では,新たに発表された米国国勢調査データセットのケーススタディについて述べる。
空間分布の変化がモデルの性能および公平性にどのように影響するかを示す。
我々の研究は、別の文脈にモデルをデプロイする前に、分散シフトに対する堅牢性が必要であることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T01:09:46Z) - Bias-inducing geometries: an exactly solvable data model with fairness implications [12.532003449620607]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。