論文の概要: Data Augmentation for Time-Series Classification: An Extensive Empirical Study and Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2310.10060v5
- Date: Sat, 24 Aug 2024 12:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:57:20.353093
- Title: Data Augmentation for Time-Series Classification: An Extensive Empirical Study and Comprehensive Survey
- Title(参考訳): 時系列分類のためのデータ拡張:広範囲にわたる実証研究と包括的調査
- Authors: Zijun Gao, Haibao Liu, Lingbo Li,
- Abstract要約: データ拡張(DA)は時系列分類(TSC)において重要なアプローチとなっている
TSCにおけるDAの現在の状況は、断片化された文献レビュー、誤った方法論上の課題、アクセス可能なユーザ指向ツールの不足に悩まされている。
本研究では,これらの課題に対して,TSCドメイン内のDA方法論の総合的な検討を通じて対処する。
- 参考スコア(独自算出の注目度): 4.030910640265943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Augmentation (DA) has become a critical approach in Time Series Classification (TSC), primarily for its capacity to expand training datasets, enhance model robustness, introduce diversity, and reduce overfitting. However, the current landscape of DA in TSC is plagued with fragmented literature reviews, nebulous methodological taxonomies, inadequate evaluative measures, and a dearth of accessible and user-oriented tools. This study addresses these challenges through a comprehensive examination of DA methodologies within the TSC domain.Our research began with an extensive literature review spanning a decade, revealing significant gaps in existing surveys and necessitating a detailed analysis of over 100 scholarly articles to identify more than 60 distinct DA techniques. This rigorous review led to the development of a novel taxonomy tailored to the specific needs of DA in TSC, categorizing techniques into five primary categories: Transformation-Based, Pattern-Based, Generative, Decomposition-Based, and Automated Data Augmentation. This taxonomy is intended to guide researchers in selecting appropriate methods with greater clarity. In response to the lack of comprehensive evaluations of foundational DA techniques, we conducted a thorough empirical study, testing nearly 20 DA strategies across 15 diverse datasets representing all types within the UCR time-series repository. Using ResNet and LSTM architectures, we employed a multifaceted evaluation approach, including metrics such as Accuracy, Method Ranking, and Residual Analysis, resulting in a benchmark accuracy of 84.98 +- 16.41% in ResNet and 82.41 +- 18.71% in LSTM. Our investigation underscored the inconsistent efficacies of DA techniques, for instance, methods like RGWs and Random Permutation significantly improved model performance, whereas others, like EMD, were less effective.
- Abstract(参考訳): データ拡張(DA)は、トレーニングデータセットを拡張し、モデルの堅牢性を高め、多様性を導入し、オーバーフィッティングを減らす能力のために、時系列分類(TSC)において重要なアプローチとなっている。
しかし、TSCにおけるDAの現在の状況は、断片化された文献レビュー、曖昧な方法論の分類、不適切な評価基準、そしてアクセス可能でユーザ指向のツールの不足に悩まされている。
本研究は, TSC領域内におけるDA手法の総合的な検討を通じて, これらの課題に対処するものである。我々の研究は10年間にわたる広範な文献レビューから始まり, 既存の調査における大きなギャップを明らかにし, 60以上のDA手法を識別するために,100以上の学術論文の詳細な分析を必要とする。
この厳格なレビューにより、TSCにおけるDAの特定のニーズに合わせた新しい分類法が開発され、テクニックを変換ベース、パターンベース、生成ベース、分解ベース、自動データ拡張の5つの主要なカテゴリに分類した。
この分類法は、研究者がより明確で適切な方法を選択するのを導くことを目的としている。
基礎DA手法の包括的評価の欠如に対して,UCR時系列リポジトリ内の全型を表す15の多様なデータセットに対して,20近いDA戦略を検証し,徹底的な実証実験を行った。
ResNet と LSTM アーキテクチャを用いて,精度,メソッドランク,残留分析などの指標を含む多面的評価手法を用いて,ResNet では 84.98 +- 16.41%,LSTM では 82.41 +- 18.71% のベンチマーク精度を得た。
例えば、RGWやランダム置換といった手法はモデル性能を大幅に改善する一方、EMDのような手法では効果が低かった。
関連論文リスト
- Comprehensive Review and Empirical Evaluation of Causal Discovery Algorithms for Numerical Data [3.9523536371670045]
因果解析は、様々な分野における現象の根本原因を理解する上で不可欠な要素となっている。
因果発見アルゴリズムに関する既存の文献は、一貫性のない方法論で断片化されている。
包括的な評価の欠如、すなわちデータ特性は、ベンチマークアルゴリズムにおいて共同で解析されることがしばしば無視される。
論文 参考訳(メタデータ) (2024-07-17T23:47:05Z) - Data Augmentation for Multivariate Time Series Classification: An Experimental Study [1.5390962520179197]
これらのデータセットのサイズは限られていますが、RocketとInceptionTimeモデルを使用して、13のデータセットのうち10の分類精度を向上しました。
これは、コンピュータビジョンで見られる進歩と並行して、効果的なモデルを訓練する上で、十分なデータの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-10T17:58:02Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Finding Foundation Models for Time Series Classification with a PreText
Task [7.197233473373693]
本稿では,時系列分類のための事前訓練済みドメイン基盤モデルを提案する。
我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。
UCRアーカイブの実験では,この事前学習戦略が,事前学習を伴わずに従来の訓練方法よりも有意に優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-24T15:03:55Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Rethinking Distribution Shifts: Empirical Analysis and Inductive Modeling for Tabular Data [30.518020409197767]
5つのデータセットと6万のメソッド構成にまたがる自然なシフトを含む実験的なテストベッドを構築します。
ML文献のX$(co)シフトに重きを置いているのとは対照的に、Y|X$-shiftsはテストベッドでもっとも一般的です。
論文 参考訳(メタデータ) (2023-07-11T14:25:10Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Training Strategies for Improved Lip-reading [61.661446956793604]
本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-09-03T09:38:11Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。