論文の概要: Seasonal Averaged One-Dependence Estimators: A Novel Algorithm to
Address Seasonal Concept Drift in High-Dimensional Stream Classification
- arxiv url: http://arxiv.org/abs/2006.15311v1
- Date: Sat, 27 Jun 2020 08:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:25:27.135364
- Title: Seasonal Averaged One-Dependence Estimators: A Novel Algorithm to
Address Seasonal Concept Drift in High-Dimensional Stream Classification
- Title(参考訳): 季節平均1依存性推定器:高次元ストリーム分類における季節概念ドリフトに対応する新しいアルゴリズム
- Authors: Rakshitha Godahewa, Trevor Yann, Christoph Bergmeir, Francois
Petitjean
- Abstract要約: 本稿では,多くの実世界のアプリケーションデータソースで見られる,ストリーム分類における季節変動に着目した。
伝統的な河川分類のアプローチでは、季節ごとのダミー/指標変数を含むか、季節ごとに別々のモデルを構築することで季節変動を考慮する。
本稿では,ニュース記事分類の特定の文脈において,季節変動を効果的に扱う方法について検討する。
- 参考スコア(独自算出の注目度): 2.3226893628361682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stream classification methods classify a continuous stream of data as new
labelled samples arrive. They often also have to deal with concept drift. This
paper focuses on seasonal drift in stream classification, which can be found in
many real-world application data sources. Traditional approaches of stream
classification consider seasonal drift by including seasonal dummy/indicator
variables or building separate models for each season. But these approaches
have strong limitations in high-dimensional classification problems, or with
complex seasonal patterns. This paper explores how to best handle seasonal
drift in the specific context of news article categorization (or
classification/tagging), where seasonal drift is overwhelmingly the main type
of drift present in the data, and for which the data are high-dimensional. We
introduce a novel classifier named Seasonal Averaged One-Dependence Estimators
(SAODE), which extends the AODE classifier to handle seasonal drift by
including time as a super parent. We assess our SAODE model using two large
real-world text mining related datasets each comprising approximately a million
records, against nine state-of-the-art stream and concept drift classification
models, with and without seasonal indicators and with separate models built for
each season. Across five different evaluation techniques, we show that our
model consistently outperforms other methods by a large margin where the
results are statistically significant.
- Abstract(参考訳): ストリーム分類手法は、新しいラベル付きサンプルが到着すると、データの連続的なストリームを分類する。
また、しばしばコンセプトドリフトに対処する必要がある。
本稿では,多くの実世界のアプリケーションデータソースで見られるストリーム分類における季節的ドリフトに着目した。
ストリーム分類の伝統的なアプローチは、季節的なダミー/インジケータ変数を含むか、季節ごとに別々のモデルを構築することで季節的なドリフトを考える。
しかし、これらのアプローチは高次元の分類問題や複雑な季節パターンに強い制限がある。
本稿では, 季節的ドリフトがデータに含まれる主な種類のドリフトであり, データが高次元である, ニュース記事分類(分類・タグ付け)の特定の文脈において, 季節的ドリフトを効果的に扱う方法について検討する。
季節平均1-依存推定器 (SAODE) と呼ばれる新しい分類器を導入し, AODE分類器を拡張して, 時刻をスーパー親として扱えるようにした。
我々は,2つの大規模実世界のテキストマイニング関連データセットを用いて,9つの最先端ストリームと概念ドリフト分類モデルに対して約100万レコードからなるSAODEモデルを評価した。
5つの異なる評価手法で比較した結果,結果が統計的に有意な場合,モデルが他の手法を一貫して上回っていることがわかった。
関連論文リスト
- Quilt: Robust Data Segment Selection against Concept Drifts [30.62320149405819]
継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。
概念ドリフトは、データXとラベルy、P(X, y)の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームで発生する。
既存のコンセプトドリフト適応アプローチは、主にモデルを新しいデータに更新することに集中し、ドリフトした履歴データを破棄する傾向がある。
モデル精度を最大化するデータセグメントを識別および選択するためのデータ中心フレームワークであるQultを提案する。
論文 参考訳(メタデータ) (2023-12-15T11:10:34Z) - Concept Drift and Long-Tailed Distribution in Fine-Grained Visual Categorization: Benchmark and Method [84.68818879525568]
コンセプションドリフトとLong-Tailed Distributionデータセットを提案する。
インスタンスの特徴は時間によって異なり、長い尾の分布を示す傾向がある。
本稿ではCDLTに関連する学習課題に対処する機能組換えフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-04T12:42:45Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - CADM: Confusion Model-based Detection Method for Real-drift in Chunk
Data Stream [3.0885191226198785]
コンセプトドリフト検出は、健康モニタリングや故障診断といった現実の多くの応用において重要であることから、かなりの注目を集めている。
本稿では,概念的混乱に基づく限定アノテーションを用いて,チャンクデータストリーム内のリアルタイムドリフトを検出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T08:59:27Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - Reconstruction of Incomplete Wildfire Data using Deep Generative Models [0.0]
我々は、Missing Data Conditional-Weighted Autocoderen (CMIWAE)と呼ばれる強力な変分オートエンコーダモデルの変種を示す。
我々の深層変数生成モデルは機能エンジニアリングをほとんど必要とせず、必ずしもデータチャレンジのスコアの特異性に依存していません。
論文 参考訳(メタデータ) (2022-01-16T23:27:31Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。