論文の概要: Employing Two-Dimensional Word Embedding for Difficult Tabular Data Stream Classification
- arxiv url: http://arxiv.org/abs/2404.15836v1
- Date: Wed, 24 Apr 2024 12:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:20:39.594687
- Title: Employing Two-Dimensional Word Embedding for Difficult Tabular Data Stream Classification
- Title(参考訳): 難易度タブラルデータストリーム分類における2次元単語埋め込みの利用
- Authors: Paweł Zyblewski,
- Abstract要約: 本稿では,難しいデータストリーム分類タスクに対して,SSTML(Streaming Super Tabular Machine Learning)を提案する。
合成データストリームと実データストリームで行った実験は、SSTMLが最先端のアルゴリズムよりも統計的に優れた分類品質を達成できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rapid technological advances are inherently linked to the increased amount of data, a substantial portion of which can be interpreted as data stream, capable of exhibiting the phenomenon of concept drift and having a high imbalance ratio. Consequently, developing new approaches to classifying difficult data streams is a rapidly growing research area. At the same time, the proliferation of deep learning and transfer learning, as well as the success of convolutional neural networks in computer vision tasks, have contributed to the emergence of a new research trend, namely Multi-Dimensional Encoding (MDE), focusing on transforming tabular data into a homogeneous form of a discrete digital signal. This paper proposes Streaming Super Tabular Machine Learning (SSTML), thereby exploring for the first time the potential of MDE in the difficult data stream classification task. SSTML encodes consecutive data chunks into an image representation using the STML algorithm and then performs a single ResNet-18 training epoch. Experiments conducted on synthetic and real data streams have demonstrated the ability of SSTML to achieve classification quality statistically significantly superior to state-of-the-art algorithms while maintaining comparable processing time.
- Abstract(参考訳): 急速な技術進歩はデータ量の増加と本質的に結びついており、その大部分はデータストリームとして解釈でき、概念のドリフト現象を示し、高い不均衡比を持つことができる。
したがって、難しいデータストリームを分類するための新しいアプローチを開発することは、急速に成長する研究分野である。
同時に、ディープラーニングとトランスファーラーニングの普及と、コンピュータビジョンタスクにおける畳み込みニューラルネットワークの成功は、表層データを離散デジタル信号の同質な形式に変換することに焦点を当てた、新しい研究トレンドであるMDE(Multi-dimensional Encoding)の出現に寄与している。
本稿では,SSTML(Streaming Super Tabular Machine Learning)を提案する。
SSTMLは、連続したチャンクをSTMLアルゴリズムを用いて画像表現にエンコードし、単一のResNet-18トレーニングエポックを実行する。
合成データストリームと実データストリームで実施された実験は、SSTMLが、同等の処理時間を維持しながら、最先端のアルゴリズムよりも統計的に優れた分類品質を達成できることを実証した。
関連論文リスト
- Sampling-guided Heterogeneous Graph Neural Network with Temporal Smoothing for Scalable Longitudinal Data Imputation [17.81217890585335]
そこで本研究では,Samping-Guided Heterogeneous Graph Neural Network (SHT-GNN) を提案する。
主観的なミニバッチサンプリングと多層時間平滑化機構を活用することで、SHT-GNNは大規模データセットに効率よくスケールする。
Alzheimer's Disease Neuroimaging Initiative (ADNI)データセットを含む、合成と実世界の両方のデータセットの実験は、SHT-GNNが既存の計算方法を大幅に上回っていることを実証している。
論文 参考訳(メタデータ) (2024-11-07T17:41:07Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - The Devil in the Details: Simple and Effective Optical Flow Synthetic
Data Generation [19.945859289278534]
本稿では,光学フローデータセットの要求特性が比較的単純であり,簡易な合成データ生成法を提案する。
2次元動きに基づくデータセットでは、合成データセットを生成するための最も単純だが重要な要素を体系的に分析する。
論文 参考訳(メタデータ) (2023-08-14T18:01:45Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - MTS2Graph: Interpretable Multivariate Time Series Classification with
Temporal Evolving Graphs [1.1756822700775666]
入力代表パターンを抽出・クラスタリングすることで時系列データを解釈する新しいフレームワークを提案する。
UCR/UEAアーカイブの8つのデータセットとHARとPAMデータセットで実験を行います。
論文 参考訳(メタデータ) (2023-06-06T16:24:27Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - On the challenges to learn from Natural Data Streams [6.602973237811197]
実世界のコンテキストでは、時にデータはNatural Data Streamsの形で利用することができる。
このデータ組織は、従来の機械学習アルゴリズムとディープラーニングアルゴリズムの両方にとって興味深い、かつ難しいシナリオである。
本稿では,自然データストリームの学習入力として受信する各種アルゴリズムの分類性能について検討する。
論文 参考訳(メタデータ) (2023-01-09T16:32:02Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - XCM: An Explainable Convolutional Neural Network for Multivariate Time
Series Classification [64.41621835517189]
MTS分類のためのeXplainable Convolutional Neural NetworkであるXCMを提案する。
XCMは、新しいコンパクト畳み込みニューラルネットワークであり、入力データから直接、観測された変数と時間に関する情報を抽出する。
最初に、XCMは、大小のパブリックUEAデータセットにおいて最先端のMSS分類器よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-10T11:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。