論文の概要: The Hidden Influence of Latent Feature Magnitude When Learning with Imbalanced Data
- arxiv url: http://arxiv.org/abs/2407.10165v1
- Date: Sun, 14 Jul 2024 11:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:19:02.332256
- Title: The Hidden Influence of Latent Feature Magnitude When Learning with Imbalanced Data
- Title(参考訳): 不均衡データを用いた学習における潜在特徴量の影響
- Authors: Damien A. Dablain, Nitesh V. Chawla,
- Abstract要約: 不均衡データを用いた学習における一般化の障害の主な原因の1つは、MLモデルが推論を行う固有の方法であることを示す。
攻撃的データ拡張は一般にマイノリティクラス予測の精度を向上するが、パラメトリックMLモデルはクラスラベルと限られた機能の組み合わせを関連づける。
- 参考スコア(独自算出の注目度): 22.521678971526253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models have difficulty generalizing when the number of training class instances are numerically imbalanced. The problem of generalization in the face of data imbalance has largely been attributed to the lack of training data for under-represented classes and to feature overlap. The typical remedy is to implement data augmentation for classes with fewer instances or to assign a higher cost to minority class prediction errors or to undersample the prevalent class. However, we show that one of the central causes of impaired generalization when learning with imbalanced data is the inherent manner in which ML models perform inference. These models have difficulty generalizing due to their heavy reliance on the magnitude of encoded signals. During inference, the models predict classes based on a combination of encoded signal magnitudes that linearly sum to the largest scalar. We demonstrate that even with aggressive data augmentation, which generally improves minority class prediction accuracy, parametric ML models still associate a class label with a limited number of feature combinations that sum to a prediction, which can affect generalization.
- Abstract(参考訳): 機械学習(ML)モデルは、トレーニングクラスのインスタンス数が数値的に不均衡である場合、一般化が困難である。
データ不均衡に直面した一般化の問題は、表現不足のクラスに対するトレーニングデータの欠如と、重複する機能の欠如に大きく起因している。
典型的な治療法は、インスタンスが少ないクラスにデータ拡張を実装したり、少数派クラスの予測エラーにより高いコストを割り当てたり、一般的なクラスをアンサンプすることである。
しかし、不均衡データを用いた学習において、一般化を損なう主な原因の1つは、MLモデルが推論を行う固有の方法であることを示す。
これらのモデルは、符号化された信号の大きさに大きく依存するため、一般化が困難である。
推論中、モデルは最大のスカラーに線形に合計されるエンコードされた信号の大きさの組み合わせに基づいてクラスを予測する。
一般にマイノリティクラス予測精度を向上するアグレッシブなデータ拡張であっても、パラメトリックMLモデルは、クラスラベルと、一般化に影響を与える可能性のある予測に合計する限られた数の特徴の組み合わせを関連付ける。
関連論文リスト
- Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - Uncertainty-guided Boundary Learning for Imbalanced Social Event
Detection [64.4350027428928]
本研究では,不均衡なイベント検出タスクのための不確実性誘導型クラス不均衡学習フレームワークを提案する。
我々のモデルは、ほとんど全てのクラス、特に不確実なクラスにおいて、社会イベントの表現と分類タスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T03:32:04Z) - When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration
Method [40.25499257944916]
実世界のデータセットは騒々しくラベル付けされ、クラス不均衡である。
本稿では,表現キャリブレーション手法RCALを提案する。
我々は,表現キャリブレーションの有効性を論じるために理論的結果を得る。
論文 参考訳(メタデータ) (2022-11-20T11:36:48Z) - On how to avoid exacerbating spurious correlations when models are
overparameterized [33.315813572333745]
VS-lossは、たとえスプリアス機能が強いとしても、マイノリティに公平なモデルを学ぶことを示す。
これまでの研究と比較すると、我々の境界はより一般的なモデルであり、それらは漸近的ではなく、極端な不均衡のシナリオにも適用される。
論文 参考訳(メタデータ) (2022-06-25T21:53:44Z) - GAN based Data Augmentation to Resolve Class Imbalance [0.0]
多くの関連するタスクにおいて、データセットは非常に少数の不正事件が観察される。
この不均衡の存在は、すべてのラベルを大多数のクラスとして予測することで、学習モデルの振舞いに影響を与える可能性がある。
我々はGAN(Generative Adversarial Network)を訓練し、少数民族の説得力のある(かつ信頼性の高い)合成例を多数生成した。
論文 参考訳(メタデータ) (2022-06-12T21:21:55Z) - Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification [36.91428748713018]
クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
論文 参考訳(メタデータ) (2022-05-23T23:43:18Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Class-Wise Difficulty-Balanced Loss for Solving Class-Imbalance [6.875312133832079]
そこで本研究では,クラスワイド・バランサード・ロスと呼ばれる新しい損失関数を提案する。
サンプルが属するクラスの難易度に応じて、各サンプルに動的に重みを分配する。
その結果、CDB損失はクラス不均衡データセットにおける最近提案された損失関数よりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-10-05T07:19:19Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。