論文の概要: Online Feature Screening for Data Streams with Concept Drift
- arxiv url: http://arxiv.org/abs/2104.02883v1
- Date: Wed, 7 Apr 2021 03:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 23:09:24.305906
- Title: Online Feature Screening for Data Streams with Concept Drift
- Title(参考訳): コンセプトドリフトによるデータストリームのオンライン機能スクリーニング
- Authors: Mingyuan Wang, Adrian Barbu
- Abstract要約: 本研究は分類データセットに焦点を当てる。
実験の結果,提案手法はオフライン版と同じ特徴を高速かつ少ないストレージで生成できることがわかった。
その結果, 統合モデル適応によるオンラインスクリーニング手法は, コンセプトドリフト特性を有するデータストリーム上でのモデル適応よりも, 真の特徴検出率が高いことがわかった。
- 参考スコア(独自算出の注目度): 8.807587076209566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Screening feature selection methods are often used as a preprocessing step
for reducing the number of variables before training step. Traditional
screening methods only focus on dealing with complete high dimensional
datasets. Modern datasets not only have higher dimension and larger sample
size, but also have properties such as streaming input, sparsity and concept
drift. Therefore a considerable number of online feature selection methods were
introduced to handle these kind of problems in recent years. Online screening
methods are one of the categories of online feature selection methods. The
methods that we proposed in this research are capable of handling all three
situations mentioned above. Our research study focuses on classification
datasets. Our experiments show proposed methods can generate the same feature
importance as their offline version with faster speed and less storage
consumption. Furthermore, the results show that online screening methods with
integrated model adaptation have a higher true feature detection rate than
without model adaptation on data streams with the concept drift property. Among
the two large real datasets that potentially have the concept drift property,
online screening methods with model adaptation show advantages in either saving
computing time and space, reducing model complexity, or improving prediction
accuracy.
- Abstract(参考訳): スクリーニング特徴選択法は、トレーニングステップの前に変数の数を減らす前処理ステップとしてよく使用される。
従来のスクリーニング手法は、完全な高次元データセットを扱うことのみに焦点を当てている。
現代のデータセットは、より高い次元とより大きなサンプルサイズを持つだけでなく、ストリーミング入力、スパーシティ、コンセプトドリフトといった特性を持つ。
そのため,近年,このような問題に対処するオンライン機能選択手法が数多く導入されている。
オンラインスクリーニング手法は、オンラインの特徴選択方法のカテゴリの1つである。
本研究で提案する手法は,上記の3つの状況すべてを扱うことができる。
本研究は分類データセットに焦点をあてる。
実験の結果,提案手法はオフライン版と同じ特徴を高速かつ少ないストレージで生成できることがわかった。
さらに, 統合モデル適応型オンラインスクリーニング手法は, ドリフト特性を持つデータストリーム上でのモデル適応の有無よりも, 真の特徴検出率が高いことを示した。
概念のドリフト特性を持つ可能性のある2つの大きな実データセットのうち、モデル適応によるオンラインスクリーニング手法は、計算時間と空間の節約、モデルの複雑さの低減、予測精度の向上といった利点を示す。
関連論文リスト
- RPS: A Generic Reservoir Patterns Sampler [1.09784964592609]
本稿では,ストリーミングバッチデータからの直接パターンサンプリングを容易にするために,重み付き貯水池を利用する手法を提案する。
本稿では、時間的バイアスに対処し、逐次的、重み付け、および非重み付けを含む様々なパターンタイプを処理できる汎用アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:25:21Z) - Towards An Online Incremental Approach to Predict Students Performance [0.8287206589886879]
本稿では,オンライン分類器を更新するためのメモリベースのオンラインインクリメンタル学習手法を提案する。
提案手法は,現在の最先端技術と比較して10%近く向上し,モデル精度の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-05-03T17:13:26Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Parameter-free Online Test-time Adaptation [19.279048049267388]
実世界の様々なシナリオにおいて,テスト時間適応手法が事前学習されたモデルにどのような効果をもたらすかを示す。
我々は特に「保守的」なアプローチを提案し、ラプラシアン適応最大推定(LAME)を用いてこの問題に対処する。
提案手法では,既存の手法よりもシナリオの平均精度がはるかに高く,メモリフットプリントもはるかに高速である。
論文 参考訳(メタデータ) (2022-01-15T00:29:16Z) - Online Feature Selection for Efficient Learning in Networked Systems [3.13468877208035]
データ駆動エンジニアリングのための現在のAI/MLメソッドは、主にオフラインでトレーニングされたモデルを使用する。
多数の利用可能なデータソースから小さな特徴セットを選択するオンライン安定特徴セットアルゴリズム(OSFS)を提案する。
OSFSは、調査されたすべてのデータセットに対して、1~3桁の規模で設定された機能のサイズを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-15T16:31:59Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Adaptive Deep Forest for Online Learning from Drifting Data Streams [15.49323098362628]
データストリームから学ぶことは、現代のデータマイニングにおいて最も重要な分野である。
本稿では,樹木をベースとしたストリーミング分類器と深い森林を自然に組み合わせたアダプティブ・ディープフォレスト(ADF)を提案する。
実験により,深い森林のアプローチを効果的にオンラインアルゴリズムに変換できることが示唆された。
論文 参考訳(メタデータ) (2020-10-14T18:24:17Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。