論文の概要: A Survey on Small Sample Imbalance Problem: Metrics, Feature Analysis, and Solutions
- arxiv url: http://arxiv.org/abs/2504.14800v1
- Date: Mon, 21 Apr 2025 01:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:02:58.416276
- Title: A Survey on Small Sample Imbalance Problem: Metrics, Feature Analysis, and Solutions
- Title(参考訳): 小サンプル不均衡問題に関する調査:メトリクス、特徴分析、解法
- Authors: Shuxian Zhao, Jie Gui, Minjing Dong, Baosheng Yu, Zhipeng Gui, Lu Dong, Yuan Yan Tang, James Tin-Yau Kwok,
- Abstract要約: 小サンプル不均衡(S&I)問題は、機械学習とデータ分析において大きな課題である。
既存の手法は、基礎となるデータ特性を十分に分析することなくアルゴリズムに依存していることが多い。
我々は、適切なソリューションを開発する前に、データの観点からの詳細な分析が不可欠であると主張する。
- 参考スコア(独自算出の注目度): 41.77642958758829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The small sample imbalance (S&I) problem is a major challenge in machine learning and data analysis. It is characterized by a small number of samples and an imbalanced class distribution, which leads to poor model performance. In addition, indistinct inter-class feature distributions further complicate classification tasks. Existing methods often rely on algorithmic heuristics without sufficiently analyzing the underlying data characteristics. We argue that a detailed analysis from the data perspective is essential before developing an appropriate solution. Therefore, this paper proposes a systematic analytical framework for the S\&I problem. We first summarize imbalance metrics and complexity analysis methods, highlighting the need for interpretable benchmarks to characterize S&I problems. Second, we review recent solutions for conventional, complexity-based, and extreme S&I problems, revealing methodological differences in handling various data distributions. Our summary finds that resampling remains a widely adopted solution. However, we conduct experiments on binary and multiclass datasets, revealing that classifier performance differences significantly exceed the improvements achieved through resampling. Finally, this paper highlights open questions and discusses future trends.
- Abstract(参考訳): 小サンプル不均衡(S&I)問題は、機械学習とデータ分析において大きな課題である。
少数のサンプルと不均衡なクラス分布によって特徴づけられ、モデル性能が低下する。
さらに、クラス間特徴分布の不特定は、さらに分類タスクを複雑にする。
既存の手法は、基礎となるデータ特性を十分に分析することなくアルゴリズム的ヒューリスティックに頼っていることが多い。
我々は、適切なソリューションを開発する前に、データの観点からの詳細な分析が不可欠であると主張する。
そこで本研究では,S\&I問題に対する系統的解析的枠組みを提案する。
まず,S&I問題を特徴付けるための解釈可能なベンチマークの必要性を強調し,不均衡な指標と複雑性分析手法を要約する。
第2に、従来の、複雑性に基づく、極端なS&I問題に対する最近の解決策を概観し、様々なデータ分布を扱う方法の違いを明らかにした。
要約では、リサンプリングは依然として広く採用されているソリューションである。
しかし、我々はバイナリとマルチクラスデータセットの実験を行い、分類器の性能差が再サンプリングによって達成された改善を著しく上回っていることを明らかにした。
最後に、オープンな質問を取り上げ、今後のトレンドについて論じる。
関連論文リスト
- A Critical Assessment of Interpretable and Explainable Machine Learning for Intrusion Detection [0.0]
本稿では,過度に複雑で不透明なMLモデル,不均衡なデータと相関した特徴,異なる説明法における不整合な影響特徴,そして説明の不可能な有用性について検討する。
具体的には、Deep Neural Networksのような複雑な不透明モデルを避け、代わりにDecision Treesのような解釈可能なMLモデルを使用することを推奨する。
機能ベースのモデル説明は、多くの場合、異なる設定で矛盾している。
論文 参考訳(メタデータ) (2024-07-04T15:35:42Z) - A Survey of Deep Long-Tail Classification Advancements [1.6233132273470656]
実世界の多くのデータ分布は、ほとんど均一ではない。代わりに、様々な種類の歪んだ、長い尾の分布がよく見られる。
これは機械学習にとって興味深い問題であり、ほとんどのアルゴリズムが均一に分散されたデータを想定したり、うまく機能する。
この問題は、大量のトレーニングデータを必要とする現在の最先端のディープラーニングモデルによってさらに悪化している。
論文 参考訳(メタデータ) (2024-04-24T01:59:02Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Balanced Audiovisual Dataset for Imbalance Analysis [31.510912639133014]
不均衡問題は機械学習の分野で広く知られており、マルチモーダル学習領域にも存在している。
最近の研究はアルゴリズムの観点からモダリティの不均衡問題を解こうとしているが、データセットにおけるモダリティバイアスの影響を完全には分析していない。
論文 参考訳(メタデータ) (2023-02-14T15:35:17Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Survey of Imbalanced Data Methodologies [1.370633147306388]
UCIとKeelデータセットのモデリングアルゴリズムにアンダーサンプリング/オーバーサンプリング手法を適用した。
クラス不均衡法, モデリングアルゴリズム, グリッド検索基準の比較を行った。
論文 参考訳(メタデータ) (2021-04-06T02:10:22Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。