論文の概要: Handling Imbalanced Datasets Through Optimum-Path Forest
- arxiv url: http://arxiv.org/abs/2202.08934v1
- Date: Thu, 17 Feb 2022 23:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 22:12:22.485998
- Title: Handling Imbalanced Datasets Through Optimum-Path Forest
- Title(参考訳): 最適パス森林における不均衡データセットの扱い
- Authors: Leandro Aparecido Passos, Danilo S. Jodas, Luiz C. F. Ribeiro, Marco
Akio, Andre Nunes de Souza, Jo\~ao Paulo Papa
- Abstract要約: Optimum-Path Forest (OPF) は、多くのアプリケーションに対する優れた性能のため、かなりの注目を浴びている。
本稿では,不均衡問題に対処するOPFベースの戦略として,$textO2$PFとOPF-USの3つを提案する。
その結果,提案手法のロバスト性が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade, machine learning-based approaches became capable of
performing a wide range of complex tasks sometimes better than humans,
demanding a fraction of the time. Such an advance is partially due to the
exponential growth in the amount of data available, which makes it possible to
extract trustworthy real-world information from them. However, such data is
generally imbalanced since some phenomena are more likely than others. Such a
behavior yields considerable influence on the machine learning model's
performance since it becomes biased on the more frequent data it receives.
Despite the considerable amount of machine learning methods, a graph-based
approach has attracted considerable notoriety due to the outstanding
performance over many applications, i.e., the Optimum-Path Forest (OPF). In
this paper, we propose three OPF-based strategies to deal with the imbalance
problem: the $\text{O}^2$PF and the OPF-US, which are novel approaches for
oversampling and undersampling, respectively, as well as a hybrid strategy
combining both approaches. The paper also introduces a set of variants
concerning the strategies mentioned above. Results compared against several
state-of-the-art techniques over public and private datasets confirm the
robustness of the proposed approaches.
- Abstract(参考訳): 過去10年間で、機械学習ベースのアプローチは、時には人間よりも幅広い複雑なタスクを実行できるようになり、わずかな時間を要するようになった。
このような進歩は、利用可能なデータ量が指数関数的に増加し、それらから信頼できる現実世界情報を抽出できるためである。
しかし、ある現象は他の現象よりも可能性が高いため、これらのデータは一般に不均衡である。
このような振る舞いは、より頻繁なデータに偏っているため、機械学習モデルのパフォーマンスにかなりの影響を与えます。
大量の機械学習手法にもかかわらず、グラフベースのアプローチは、多くのアプリケーション、すなわち最適なパスフォレスト(opf)のパフォーマンスが優れたため、かなりの注目を集めている。
本稿では,不均衡問題に対処するための3つのopfベースの戦略を提案する。$\text{o}^2$pf と opf-us はそれぞれオーバーサンプリングとアンダーサンプリングのための新しいアプローチであり,両方のアプローチを組み合わせたハイブリッド戦略である。
本稿では,上記の戦略に関する変種についても紹介する。
パブリックデータセットとプライベートデータセットにおける最先端技術との比較により,提案手法の堅牢性が確認された。
関連論文リスト
- FedLF: Adaptive Logit Adjustment and Feature Optimization in Federated Long-Tailed Learning [5.23984567704876]
フェデレーション学習は、分散機械学習におけるプライバシの保護という課題にパラダイムを提供する。
伝統的なアプローチは、グローバルな長期データにおけるクラスワイドバイアスの現象に対処できない。
新しい手法であるFedLFは、適応ロジット調整、連続クラス中心最適化、特徴デコリレーションという、局所的なトレーニングフェーズに3つの修正を導入している。
論文 参考訳(メタデータ) (2024-09-18T16:25:29Z) - AAA: an Adaptive Mechanism for Locally Differential Private Mean Estimation [42.95927712062214]
ローカルディファレンシャルプライバシ(LDP)は、一般的なソフトウェアシステムで採用されている強力なプライバシ標準である。
本稿では, 平均効用に対処する分布認識手法である, 適応型アダプティブ (AAA) 機構を提案する。
我々は、厳密なプライバシー証明、ユーティリティ分析、そしてAAAと最先端のメカニズムを比較した広範な実験を提供する。
論文 参考訳(メタデータ) (2024-04-02T04:22:07Z) - Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification [1.03590082373586]
本稿では,MapReduceフレームワークを用いて,インテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせたSMOTENNという新しいリサンプリング手法を提案する。
実験の結果,この手法の利点が示され,小規模・中規模のデータセットに対する代替サンプリング技術よりも優れていた。
論文 参考訳(メタデータ) (2023-10-09T15:22:13Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。