論文の概要: Towards Understanding How Data Augmentation Works with Imbalanced Data
- arxiv url: http://arxiv.org/abs/2304.05895v1
- Date: Wed, 12 Apr 2023 15:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:45:55.867493
- Title: Towards Understanding How Data Augmentation Works with Imbalanced Data
- Title(参考訳): 不均衡データによるデータ拡張の仕組み理解に向けて
- Authors: Damien A. Dablain and Nitesh V. Chawla
- Abstract要約: 本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
- 参考スコア(独自算出の注目度): 17.478900028887537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation forms the cornerstone of many modern machine learning
training pipelines; yet, the mechanisms by which it works are not clearly
understood. Much of the research on data augmentation (DA) has focused on
improving existing techniques, examining its regularization effects in the
context of neural network over-fitting, or investigating its impact on
features. Here, we undertake a holistic examination of the effect of DA on
three different classifiers, convolutional neural networks, support vector
machines, and logistic regression models, which are commonly used in supervised
classification of imbalanced data. We support our examination with testing on
three image and five tabular datasets. Our research indicates that DA, when
applied to imbalanced data, produces substantial changes in model weights,
support vectors and feature selection; even though it may only yield relatively
modest changes to global metrics, such as balanced accuracy or F1 measure. We
hypothesize that DA works by facilitating variances in data, so that machine
learning models can associate changes in the data with labels. By diversifying
the range of feature amplitudes that a model must recognize to predict a label,
DA improves a model's capacity to generalize when learning with imbalanced
data.
- Abstract(参考訳): データ拡張は多くの現代の機械学習トレーニングパイプラインの基盤となっているが、それが機能するメカニズムは明確には理解されていない。
データ拡張(da)に関する多くの研究は、既存の技術の改善、ニューラルネットワークの過剰フィッティングの文脈における正規化効果の検証、機能への影響の調査に焦点を当てている。
本稿では,DAが3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクターマシン,ロジスティック回帰モデルに与える影響を総合的に検討する。
我々は,3つの画像と5つの表付きデータセットの検証を支援。
本研究は, DAが不均衡データに適用された場合, モデル重み, サポートベクトル, 特徴選択の大幅な変化が生じることを示唆する。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
モデルがラベルを予測するために認識しなければならない特徴振幅の範囲を多様化することにより、DAは不均衡なデータで学習する際のモデルの能力を改善して一般化する。
関連論文リスト
- How Does Data Diversity Shape the Weight Landscape of Neural Networks? [2.89287673224661]
本稿では, ニューラルネットワークのパラメータ空間に対する降雨量, 重量減衰量, 騒音増大の影響について検討する。
我々は、多様なデータが、ドロップアウトと同様の方法で重量景観に影響を与えることを観察する。
合成データにより、実際の入力データにより多くの多様性がもたらされ、アウト・オブ・ディストリビューションテストインスタンスの性能が向上する、と結論付けている。
論文 参考訳(メタデータ) (2024-10-18T16:57:05Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - A Guide for Practical Use of ADMG Causal Data Augmentation [0.0]
これらの課題に対処するためのソリューションとして、因果データ拡張戦略が指摘されている。
異なる設定を考慮したADMG因果拡大法を実験的に検討した。
論文 参考訳(メタデータ) (2023-04-03T09:31:13Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Vector-Based Data Improves Left-Right Eye-Tracking Classifier
Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。
我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。
その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文 参考訳(メタデータ) (2022-07-31T16:27:50Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks [3.233545237942899]
アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
論文 参考訳(メタデータ) (2022-04-01T00:25:11Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。