論文の概要: Quilt: Robust Data Segment Selection against Concept Drifts
- arxiv url: http://arxiv.org/abs/2312.09691v1
- Date: Fri, 15 Dec 2023 11:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:16:20.015309
- Title: Quilt: Robust Data Segment Selection against Concept Drifts
- Title(参考訳): quilt: コンセプトドリフトに対するロバストなデータセグメント選択
- Authors: Minsu Kim, Seong-Hyeon Hwang, Steven Euijong Whang
- Abstract要約: 継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。
概念ドリフトは、データXとラベルy、P(X, y)の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームで発生する。
既存のコンセプトドリフト適応アプローチは、主にモデルを新しいデータに更新することに集中し、ドリフトした履歴データを破棄する傾向がある。
モデル精度を最大化するデータセグメントを識別および選択するためのデータ中心フレームワークであるQultを提案する。
- 参考スコア(独自算出の注目度): 30.62320149405819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous machine learning pipelines are common in industrial settings where
models are periodically trained on data streams. Unfortunately, concept drifts
may occur in data streams where the joint distribution of the data X and label
y, P(X, y), changes over time and possibly degrade model accuracy. Existing
concept drift adaptation approaches mostly focus on updating the model to the
new data possibly using ensemble techniques of previous models and tend to
discard the drifted historical data. However, we contend that explicitly
utilizing the drifted data together leads to much better model accuracy and
propose Quilt, a data-centric framework for identifying and selecting data
segments that maximize model accuracy. To address the potential downside of
efficiency, Quilt extends existing data subset selection techniques, which can
be used to reduce the training data without compromising model accuracy. These
techniques cannot be used as is because they only assume virtual drifts where
the posterior probabilities P(y|X) are assumed not to change. In contrast, a
key challenge in our setup is to also discard undesirable data segments with
concept drifts. Quilt thus discards drifted data segments and selects data
segment subsets holistically for accurate and efficient model training. The two
operations use gradient-based scores, which have little computation overhead.
In our experiments, we show that Quilt outperforms state-of-the-art drift
adaptation and data selection baselines on synthetic and real datasets.
- Abstract(参考訳): 継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。
残念なことに、データ X とラベル y, P(X, y) の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームにコンセプトドリフトが発生する可能性がある。
既存のコンセプトドリフト適応アプローチは、おそらく以前のモデルのアンサンブル技術を用いて新しいデータにモデルを更新することに集中し、漂流した歴史データを破棄する傾向がある。
しかし, ドリフトデータを明確に活用することでモデル精度が向上し, モデル精度を最大化するデータセグメントを識別・選択するためのデータ中心フレームワークQultを提案する。
効率の潜在的な欠点に対処するため、quiltは既存のデータサブセット選択技術を拡張し、モデルの精度を損なうことなくトレーニングデータを減らすことができる。
これらの手法は、後続確率 P(y|X) が変化しないと仮定される仮想ドリフトのみを仮定しているため、使用できない。
対照的に、セットアップの重要な課題は、望ましくないデータセグメントをコンセプトドリフトで捨てることです。
これにより、クイットはドリフトされたデータセグメントを破棄し、正確で効率的なモデルトレーニングのためにデータセグメントサブセットを選択する。
2つの演算は勾配ベースのスコアを使用し、計算オーバーヘッドが少ない。
実験では,quiltが合成データと実データで最先端のドリフト適応とデータ選択ベースラインよりも優れていることを示す。
関連論文リスト
- A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data Models for Dataset Drift Controls in Machine Learning With Optical
Images [8.818468649062932]
主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。
既存のアプローチでは、関心の対象であるデータ(データ)の明示的なモデルは説明できない。
本研究では、画像データに対してそのようなデータモデルを構築する方法を示し、データセットのドリフトに関連する下流機械学習モデルの性能を制御する。
論文 参考訳(メタデータ) (2022-11-04T16:50:10Z) - Employing chunk size adaptation to overcome concept drift [2.277447144331876]
ブロックベースのデータストリーム分類アルゴリズムに適応可能な新しいチャンク適応復元フレームワークを提案する。
提案アルゴリズムは,概念ドリフト検出時のデータチャンクサイズを調整し,その変更が使用済みモデルの予測性能に与える影響を最小限に抑える。
論文 参考訳(メタデータ) (2021-10-25T12:36:22Z) - Unsupervised Model Drift Estimation with Batch Normalization Statistics
for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。
本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文 参考訳(メタデータ) (2021-07-01T03:04:47Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。