論文の概要: An Active Learning Framework with a Class Balancing Strategy for Time Series Classification
- arxiv url: http://arxiv.org/abs/2405.12122v1
- Date: Mon, 20 May 2024 15:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:45:20.566198
- Title: An Active Learning Framework with a Class Balancing Strategy for Time Series Classification
- Title(参考訳): 時系列分類のためのクラスバランス戦略をもつアクティブラーニングフレームワーク
- Authors: Shemonto Das,
- Abstract要約: 本論文は,実効時系列分類に必要なラベル付きデータの量を削減するためのアクティブラーニング戦略について考察する。
従来のAL技術では、ラベル付けのためのクラス毎のインスタンスの選択を制御できない。
本稿では,標準AL戦略と統合された新しいクラス分散インスタンス選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training machine learning models for classification tasks often requires labeling numerous samples, which is costly and time-consuming, especially in time series analysis. This research investigates Active Learning (AL) strategies to reduce the amount of labeled data needed for effective time series classification. Traditional AL techniques cannot control the selection of instances per class for labeling, leading to potential bias in classification performance and instance selection, particularly in imbalanced time series datasets. To address this, we propose a novel class-balancing instance selection algorithm integrated with standard AL strategies. Our approach aims to select more instances from classes with fewer labeled examples, thereby addressing imbalance in time series datasets. We demonstrate the effectiveness of our AL framework in selecting informative data samples for two distinct domains of tactile texture recognition and industrial fault detection. In robotics, our method achieves high-performance texture categorization while significantly reducing labeled training data requirements to 70%. We also evaluate the impact of different sliding window time intervals on robotic texture classification using AL strategies. In synthetic fiber manufacturing, we adapt AL techniques to address the challenge of fault classification, aiming to minimize data annotation cost and time for industries. We also address real-life class imbalances in the multiclass industrial anomalous dataset using our class-balancing instance algorithm integrated with AL strategies. Overall, this thesis highlights the potential of our AL framework across these two distinct domains.
- Abstract(参考訳): 分類タスクのための機械学習モデルのトレーニングには、多くのサンプルをラベル付けする必要があることが多い。
本研究では,実効時系列分類に必要なラベル付きデータの量を削減するためのアクティブラーニング(AL)戦略について検討する。
従来のAL技術では、ラベル付けのためのクラス毎のインスタンスの選択を制御できないため、分類性能やインスタンスの選択、特に不均衡な時系列データセットに偏りが生じる可能性がある。
そこで本研究では,標準AL戦略と統合された新しいクラスバランスインスタンス選択アルゴリズムを提案する。
我々のアプローチは、ラベル付き例が少ないクラスからより多くのインスタンスを選択し、時系列データセットの不均衡に対処することを目的としている。
触覚テクスチャ認識と産業断層検出の2つの異なる領域における情報データサンプル選択におけるALフレームワークの有効性を実証する。
ロボット工学において,本手法は,ラベル付きトレーニングデータ要求を70%に抑えながら,高性能なテクスチャ分類を実現する。
また、AL戦略を用いたロボットテクスチャ分類に異なる滑り窓時間間隔が与える影響についても検討した。
合成繊維製造において,業界におけるデータアノテーションのコストと時間を最小限に抑えることを目的とした,障害分類の課題に対処するためにAL手法を適用した。
また、AL戦略と統合したクラスバランスインスタンスアルゴリズムを用いて、マルチクラス産業異常データセットにおける実生活クラスの不均衡にも対処する。
全体として、この論文は、これらの2つの異なるドメインにわたるALフレームワークの可能性を強調します。
関連論文リスト
- MISS: Multiclass Interpretable Scoring Systems [13.902264070785986]
MISS(Multiclass Interpretable Scoring Systems)構築のための機械学習手法を提案する。
MISSは、シングルクラス、スパース、ユーザフレンドリーなスコアリングシステムのための、完全なデータ駆動の方法論である。
結果から,本手法は他の機械学習モデルと性能指標の分類において競合し,高い校正率のクラス確率が得られたことが示唆された。
論文 参考訳(メタデータ) (2024-01-10T10:57:12Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Dynamic Loss For Robust Learning [17.33444812274523]
本研究は,メタラーニングに基づく動的損失を学習プロセスで自動調整し,長い尾の雑音データから分類器を頑健に学習する手法を提案する。
本研究では,CIFAR-10/100,Animal-10N,ImageNet-LT,Webvisionなど,さまざまな種類のデータバイアスを持つ複数の実世界および合成データセットに対して,最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-11-22T01:48:25Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Active Transfer Prototypical Network: An Efficient Labeling Algorithm
for Time-Series Data [1.7205106391379026]
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。
このフレームワークは、UCI HAR/HAPTデータセットと現実世界のブレーキ操作データセットに基づいて検証された。
学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。
論文 参考訳(メタデータ) (2022-09-28T16:14:40Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - Sum of Ranked Range Loss for Supervised Learning [47.0464265614452]
本稿では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介した。
ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。
サンプルレベルでのバイナリ/マルチクラス分類におけるAoRR集約損失と,ラベルレベルでのマルチラベル/マルチクラス分類におけるTKML個別損失という,SoRRフレームワークの最小化のための機械学習の2つの応用について検討する。
論文 参考訳(メタデータ) (2021-06-07T02:11:27Z) - Learning by Minimizing the Sum of Ranked Range [58.24935359348289]
本稿では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介した。
ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。
我々は,SoRRフレームワークの最小化のための機械学習における2つの応用,すなわち,バイナリ分類のためのAoRR集約損失とマルチラベル/マルチクラス分類のためのTKML個人損失について検討する。
論文 参考訳(メタデータ) (2020-10-05T01:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。