Fugu-MT 論文翻訳(概要): Quilt: Robust Data Segment Selection against Concept Drifts

論文の概要: Quilt: Robust Data Segment Selection against Concept Drifts

arxiv url: http://arxiv.org/abs/2312.09691v1
Date: Fri, 15 Dec 2023 11:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 16:16:20.015309
Title: Quilt: Robust Data Segment Selection against Concept Drifts
Title（参考訳）: quilt: コンセプトドリフトに対するロバストなデータセグメント選択
Authors: Minsu Kim, Seong-Hyeon Hwang, Steven Euijong Whang
Abstract要約: 継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。概念ドリフトは、データXとラベルy、P(X, y)の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームで発生する。既存のコンセプトドリフト適応アプローチは、主にモデルを新しいデータに更新することに集中し、ドリフトした履歴データを破棄する傾向がある。モデル精度を最大化するデータセグメントを識別および選択するためのデータ中心フレームワークであるQultを提案する。
参考スコア（独自算出の注目度）: 30.62320149405819
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continuous machine learning pipelines are common in industrial settings where models are periodically trained on data streams. Unfortunately, concept drifts may occur in data streams where the joint distribution of the data X and label y, P(X, y), changes over time and possibly degrade model accuracy. Existing concept drift adaptation approaches mostly focus on updating the model to the new data possibly using ensemble techniques of previous models and tend to discard the drifted historical data. However, we contend that explicitly utilizing the drifted data together leads to much better model accuracy and propose Quilt, a data-centric framework for identifying and selecting data segments that maximize model accuracy. To address the potential downside of efficiency, Quilt extends existing data subset selection techniques, which can be used to reduce the training data without compromising model accuracy. These techniques cannot be used as is because they only assume virtual drifts where the posterior probabilities P(y|X) are assumed not to change. In contrast, a key challenge in our setup is to also discard undesirable data segments with concept drifts. Quilt thus discards drifted data segments and selects data segment subsets holistically for accurate and efficient model training. The two operations use gradient-based scores, which have little computation overhead. In our experiments, we show that Quilt outperforms state-of-the-art drift adaptation and data selection baselines on synthetic and real datasets.
Abstract（参考訳）: 継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。残念なことに、データ X とラベル y, P(X, y) の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームにコンセプトドリフトが発生する可能性がある。既存のコンセプトドリフト適応アプローチは、おそらく以前のモデルのアンサンブル技術を用いて新しいデータにモデルを更新することに集中し、漂流した歴史データを破棄する傾向がある。しかし, ドリフトデータを明確に活用することでモデル精度が向上し, モデル精度を最大化するデータセグメントを識別・選択するためのデータ中心フレームワークQultを提案する。効率の潜在的な欠点に対処するため、quiltは既存のデータサブセット選択技術を拡張し、モデルの精度を損なうことなくトレーニングデータを減らすことができる。これらの手法は、後続確率 P(y|X) が変化しないと仮定される仮想ドリフトのみを仮定しているため、使用できない。対照的に、セットアップの重要な課題は、望ましくないデータセグメントをコンセプトドリフトで捨てることです。これにより、クイットはドリフトされたデータセグメントを破棄し、正確で効率的なモデルトレーニングのためにデータセグメントサブセットを選択する。 2つの演算は勾配ベースのスコアを使用し、計算オーバーヘッドが少ない。実験では,quiltが合成データと実データで最先端のドリフト適応とデータ選択ベースラインよりも優れていることを示す。

関連論文リスト

Learning Data-Driven Uncertainty Set Partitions for Robust and Adaptive Energy Forecasting with Missing Data [0.0]
短期的な風力発電予測モデルでは、投入時に入力データ(機能)が利用可能であることを前提としている。機器の故障、破壊、サイバー攻撃は、そのようなモデルが運用に使用される際に欠落する可能性がある。適応的ロバスト最適化と対向機械学習を用いて、不足したデータをシームレスに操作する予測モデルを開発する。
論文参考訳（メタデータ） (2025-03-26T10:38:56Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文参考訳（メタデータ） (2024-11-23T17:35:23Z)
Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.02948004359488]
データセット蒸留(DD)は、豊富な分散情報を保持しながら、データセットを元のサイズの分数に蒸留することができる。この領域の最近の研究は、蒸留データセットで訓練されたモデルの精度向上に重点を置いている。そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-15T06:31:03Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
Data Models for Dataset Drift Controls in Machine Learning With Optical Images [8.818468649062932]
主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。既存のアプローチでは、関心の対象であるデータ(データ)の明示的なモデルは説明できない。本研究では、画像データに対してそのようなデータモデルを構築する方法を示し、データセットのドリフトに関連する下流機械学習モデルの性能を制御する。
論文参考訳（メタデータ） (2022-11-04T16:50:10Z)
Employing chunk size adaptation to overcome concept drift [2.277447144331876]
ブロックベースのデータストリーム分類アルゴリズムに適応可能な新しいチャンク適応復元フレームワークを提案する。提案アルゴリズムは,概念ドリフト検出時のデータチャンクサイズを調整し,その変更が使用済みモデルの予測性能に与える影響を最小限に抑える。
論文参考訳（メタデータ） (2021-10-25T12:36:22Z)
Unsupervised Model Drift Estimation with Batch Normalization Statistics for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文参考訳（メタデータ） (2021-07-01T03:04:47Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文参考訳（メタデータ） (2021-03-08T16:03:09Z)
Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文参考訳（メタデータ） (2020-09-01T15:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。