論文の概要: Foundations of data imbalance and solutions for a data democracy
- arxiv url: http://arxiv.org/abs/2108.00071v1
- Date: Fri, 30 Jul 2021 20:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 06:27:53.965236
- Title: Foundations of data imbalance and solutions for a data democracy
- Title(参考訳): データ不均衡の基礎とデータ民主主義の解決策
- Authors: Ajay Kulkarni, Deri Chong, Feras A. Batarseh
- Abstract要約: 不均衡なデータを扱うことが、データセットの分類を行う上で一般的な問題である。
クラス不均衡の度合いと概念の複雑さの2つの重要な統計要素が解決される。
これらのシナリオに適切な対策を議論し、実生活データセット上で実施する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dealing with imbalanced data is a prevalent problem while performing
classification on the datasets. Many times, this problem contributes to bias
while making decisions or implementing policies. Thus, it is vital to
understand the factors which cause imbalance in the data (or class imbalance).
Such hidden biases and imbalances can lead to data tyranny and a major
challenge to a data democracy. In this chapter, two essential statistical
elements are resolved: the degree of class imbalance and the complexity of the
concept; solving such issues helps in building the foundations of a data
democracy. Furthermore, statistical measures which are appropriate in these
scenarios are discussed and implemented on a real-life dataset (car insurance
claims). In the end, popular data-level methods such as random oversampling,
random undersampling, synthetic minority oversampling technique, Tomek link,
and others are implemented in Python, and their performance is compared.
- Abstract(参考訳): 不均衡なデータを扱うことが、データセットの分類を行う上で一般的な問題である。
多くの場合、この問題は意思決定やポリシーの実行においてバイアスに寄与します。
したがって、データ(またはクラス不均衡)の不均衡を引き起こす要因を理解することが不可欠である。
このような隠れバイアスと不均衡は、データの暴行とデータ民主主義への大きな挑戦につながる可能性がある。
この章では、クラス不均衡の程度と概念の複雑さという2つの重要な統計要素が解決されます。
さらに,これらのシナリオに適した統計指標を実生活データセット(自動車保険請求)上で論じ,実施する。
最終的に、ランダムなオーバーサンプリング、ランダムなアンダーサンプリング、合成マイノリティなオーバーサンプリング技術、Tomekリンクなどの一般的なデータレベルメソッドがPythonで実装され、そのパフォーマンスが比較される。
関連論文リスト
- Mind the Graph When Balancing Data for Fairness or Robustness [73.03155969727038]
データバランシングのためのトレーニングディストリビューションの条件を定義し、公正またはロバストなモデルに導く。
その結果、多くの場合、バランスの取れた分布は、望ましくない依存関係を選択的に除去することには対応しないことがわかった。
その結果,データバランシングを行う前に因果グラフを考慮に入れることの重要性を強調した。
論文 参考訳(メタデータ) (2024-06-25T10:16:19Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Sequential Targeting: an incremental learning approach for data
imbalance in text classification [7.455546102930911]
不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-20T04:54:00Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z) - Smart Data driven Decision Trees Ensemble Methodology for Imbalanced Big
Data [11.117880929232575]
MapReduceパラダイムの使用によるデータ戦略の分割とマイノリティクラスのデータの欠如は、不均衡なデータ問題に対処するための新たな課題を提起している。
スマートデータ(Smart Data)は、高性能なモデルを実現するのに十分な品質のデータを指す。
本稿では,ビッグデータ領域における不均衡な分類問題に対処するための,新しいSmart Data driven Decision Trees Ensemble法を提案する。
論文 参考訳(メタデータ) (2020-01-16T12:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。