論文の概要: A Comprehensive Survey on Imbalanced Data Learning
- arxiv url: http://arxiv.org/abs/2502.08960v1
- Date: Thu, 13 Feb 2025 04:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:43.943197
- Title: A Comprehensive Survey on Imbalanced Data Learning
- Title(参考訳): 不均衡データ学習に関する包括的調査
- Authors: Xinyi Gao, Dongting Xie, Yihang Zhang, Zhengren Wang, Conghui He, Hongzhi Yin, Wentao Zhang,
- Abstract要約: 不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。
本調査は,様々な実世界のデータ形式を体系的に分析する。
さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
- 参考スコア(独自算出の注目度): 45.3186824501823
- License:
- Abstract: With the expansion of data availability, machine learning (ML) has achieved remarkable breakthroughs in both academia and industry. However, imbalanced data distributions are prevalent in various types of raw data and severely hinder the performance of ML by biasing the decision-making processes. To deepen the understanding of imbalanced data and facilitate the related research and applications, this survey systematically analyzing various real-world data formats and concludes existing researches for different data formats into four distinct categories: data re-balancing, feature representation, training strategy, and ensemble learning. This structured analysis help researchers comprehensively understand the pervasive nature of imbalance across diverse data format, thereby paving a clearer path toward achieving specific research goals. we provide an overview of relevant open-source libraries, spotlight current challenges, and offer novel insights aimed at fostering future advancements in this critical area of study.
- Abstract(参考訳): データ可用性の拡大により、機械学習(ML)は、アカデミックと業界の両方で驚くべきブレークスルーを達成した。
しかし,不均衡なデータ分布は各種の生データに多く存在し,意思決定プロセスに偏ってMLの性能を著しく損なう。
不均衡データの理解を深め、関連する研究や応用を促進するため、様々な実世界のデータフォーマットを体系的に分析し、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめる。
この構造解析は、研究者が様々なデータ形式にまたがる不均衡の広範性を理解し、特定の研究目標を達成するための明確な道を開くのに役立つ。
我々は、関連するオープンソースライブラリの概要、スポットライトの現在の課題、そして、この重要な研究領域における将来の進歩を促進することを目的とした新しい洞察を提供する。
関連論文リスト
- A Survey on Group Fairness in Federated Learning: Challenges, Taxonomy of Solutions and Directions for Future Research [5.08731160761218]
機械学習におけるグループフェアネスは、異なるグループ間で平等な結果を達成することに焦点を当てた研究の重要領域である。
フェデレーション学習は、クライアント間の不均一なデータ分散による公平性の必要性を増幅する。
連合学習におけるグループフェアネスの総合的な調査は行われていない。
データパーティショニング、ロケーション、適用戦略といった重要な基準に基づいて、これらのアプローチの新しい分類法を作成します。
論文 参考訳(メタデータ) (2024-10-04T18:39:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - A Survey of Deep Long-Tail Classification Advancements [1.6233132273470656]
実世界の多くのデータ分布は、ほとんど均一ではない。代わりに、様々な種類の歪んだ、長い尾の分布がよく見られる。
これは機械学習にとって興味深い問題であり、ほとんどのアルゴリズムが均一に分散されたデータを想定したり、うまく機能する。
この問題は、大量のトレーニングデータを必要とする現在の最先端のディープラーニングモデルによってさらに悪化している。
論文 参考訳(メタデータ) (2024-04-24T01:59:02Z) - Benchmarking Data Science Agents [11.582116078653968]
大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。
しかし、現実の応用の様々な要求と複雑な分析プロセスによって、それらの実用的有効性は依然として制限されている。
我々は、新しい評価パラダイムであるDSEvalと、これらのエージェントの性能を評価するための一連の革新的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-02-27T03:03:06Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Supervised Algorithmic Fairness in Distribution Shifts: A Survey [17.826312801085052]
現実世界のアプリケーションでは、機械学習モデルは特定のデータセットでトレーニングされることが多いが、データ分散がシフトする可能性のある環境にデプロイされる。
この変化は、人種や性別などのセンシティブな属性によって特徴づけられる特定のグループに不公平な予測をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-02-02T11:26:18Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。