論文の概要: Outlier Detection as Instance Selection Method for Feature Selection in
Time Series Classification
- arxiv url: http://arxiv.org/abs/2111.09127v1
- Date: Tue, 16 Nov 2021 14:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 03:07:32.930079
- Title: Outlier Detection as Instance Selection Method for Feature Selection in
Time Series Classification
- Title(参考訳): 時系列分類における特徴選択のインスタンス選択法としての異常検出
- Authors: David Cemernek
- Abstract要約: まれなインスタンスのための機能選択メソッドに提供されるフィルタインスタンス。
一部のデータセットでは、結果としてパフォーマンスが向上したのはわずか数パーセントだった。
他のデータセットでは、最大16%のパフォーマンス向上を実現しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to allow machine learning algorithms to extract knowledge from raw
data, these data must first be cleaned, transformed, and put into
machine-appropriate form. These often very time-consuming phase is referred to
as preprocessing. An important step in the preprocessing phase is feature
selection, which aims at better performance of prediction models by reducing
the amount of features of a data set. Within these datasets, instances of
different events are often imbalanced, which means that certain normal events
are over-represented while other rare events are very limited. Typically, these
rare events are of special interest since they have more discriminative power
than normal events. The aim of this work was to filter instances provided to
feature selection methods for these rare instances, and thus positively
influence the feature selection process. In the course of this work, we were
able to show that this filtering has a positive effect on the performance of
classification models and that outlier detection methods are suitable for this
filtering. For some data sets, the resulting increase in performance was only a
few percent, but for other datasets, we were able to achieve increases in
performance of up to 16 percent. This work should lead to the improvement of
the predictive models and the better interpretability of feature selection in
the course of the preprocessing phase. In the spirit of open science and to
increase transparency within our research field, we have made all our source
code and the results of our experiments available in a publicly available
repository.
- Abstract(参考訳): 機械学習アルゴリズムが生データから知識を抽出するためには、まずこれらのデータをクリーンにし、変換し、マシンに適した形式にする必要がある。
これらはしばしば、非常に時間を要するフェーズを前処理と呼ぶ。
前処理フェーズにおける重要なステップは特徴選択であり、データセットの特徴量の削減による予測モデルの性能向上を目的としている。
これらのデータセット内では、異なるイベントのインスタンスはしばしば不均衡であり、特定の通常のイベントが過剰に表示され、他のまれなイベントは非常に制限されることを意味する。
通常、これらの稀な出来事は、通常の出来事よりも差別的な力を持つため、特別な関心を持つ。
この研究の目的は、これらの稀なインスタンスのための特徴選択メソッドに提供されるインスタンスをフィルタリングすることであり、したがって、特徴選択プロセスに肯定的な影響を及ぼす。
本研究の過程で,このフィルタリングが分類モデルの性能に肯定的な影響を及ぼし,外乱検出法がこのフィルタリングに適していることを示すことができた。
一部のデータセットでは、結果としてパフォーマンスが向上したのはわずか数パーセントでしたが、他のデータセットでは最大16%のパフォーマンス向上を実現しました。
この作業は、予測モデルの改善と、前処理フェーズにおける特徴選択のより良い解釈可能性をもたらすはずである。
オープンサイエンスの精神と研究分野の透明性を高めるために、私たちはすべてのソースコードと実験の結果を公開リポジトリで公開しました。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Evaluating the Role of Data Enrichment Approaches Towards Rare Event Analysis in Manufacturing [1.3980986259786223]
希少な出来事は、一般的な通常の出来事よりもはるかに低い頻度で起こる出来事である。
製造業では、計画外のダウンタイム、設備寿命の短縮、高エネルギー消費につながるため、このような事象を予測することが特に重要である。
本稿では,データエンリッチメント技術と教師付き機械学習技術を組み合わせて,まれな事象の検出と予測を行う役割について検討する。
論文 参考訳(メタデータ) (2024-07-01T00:05:56Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Tradeoffs in Resampling and Filtering for Imbalanced Classification [2.3605348648054454]
トレーニングデータを選択する異なる方法が、効率と効率のトレードオフをもたらすことを示す。
また、高度に不均衡なケースでは、ファーストパス検索モデルを用いたテストデータのフィルタリングが、トレーニングデータを選択するのと同じくらい、モデルの性能にとって重要であることも確認した。
論文 参考訳(メタデータ) (2022-08-31T21:40:47Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models [0.0]
膨大な量のデータとケーススタディが公開されており、研究者がトレンドを見つけるユニークな機会を提供している。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、この目的を達成するための自然なアプローチである。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,90%以上の予測精度が得られることを示す。
論文 参考訳(メタデータ) (2021-10-18T20:06:01Z) - A Feature Selection Method for Multi-Dimension Time-Series Data [2.055949720959582]
モーションキャプチャやアクティビティ認識などのアプリケーション領域の時系列データは、しばしば多次元である。
これらのデータストリームには多くの冗長性があり、優れた分類精度は少数の機能で達成できることが多い。
相互情報に基づく多次元時系列データにおける特徴部分選択法を提案する。
論文 参考訳(メタデータ) (2021-04-22T14:49:00Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。