論文の概要: Robust Data Pruning: Uncovering and Overcoming Implicit Bias
- arxiv url: http://arxiv.org/abs/2404.05579v1
- Date: Mon, 8 Apr 2024 14:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:05:34.595692
- Title: Robust Data Pruning: Uncovering and Overcoming Implicit Bias
- Title(参考訳): Robust Data Pruning - 意図しないバイアスの発見と克服
- Authors: Artem Vysogorets, Kartik Ahuja, Julia Kempe,
- Abstract要約: 我々は、この効果を初めて体系的に研究し、既存のデータプルーニングアルゴリズムが高度に偏りのある分類器を生成することを明らかにした。
本稿では,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証する「フェアネス・アウェア」アプローチを提案する。
- 参考スコア(独自算出の注目度): 11.930434318557156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of exceptionally data-hungry models, careful selection of the training data is essential to mitigate the extensive costs of deep learning. Data pruning offers a solution by removing redundant or uninformative samples from the dataset, which yields faster convergence and improved neural scaling laws. However, little is known about its impact on classification bias of the trained models. We conduct the first systematic study of this effect and reveal that existing data pruning algorithms can produce highly biased classifiers. At the same time, we argue that random data pruning with appropriate class ratios has potential to improve the worst-class performance. We propose a "fairness-aware" approach to pruning and empirically demonstrate its performance on standard computer vision benchmarks. In sharp contrast to existing algorithms, our proposed method continues improving robustness at a tolerable drop of average performance as we prune more from the datasets. We present theoretical analysis of the classification risk in a mixture of Gaussians to further motivate our algorithm and support our findings.
- Abstract(参考訳): 例外的なデータハングリーモデルの時代においては、ディープラーニングの膨大なコストを軽減するために、トレーニングデータの慎重な選択が不可欠である。
データプルーニングは、データセットから冗長あるいは非形式的なサンプルを取り除くことでソリューションを提供する。
しかし、訓練されたモデルの分類バイアスへの影響についてはほとんど分かっていない。
我々は、この効果を初めて体系的に研究し、既存のデータプルーニングアルゴリズムが高度に偏りのある分類器を生成することを明らかにした。
同時に、適切なクラス比のランダムデータプルーニングは、最悪のクラス性能を改善する可能性があると論じる。
本稿では,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証する「フェアネス・アウェア」アプローチを提案する。
既存のアルゴリズムとは対照的に,提案手法は,データセットからより経験を積むにつれて,許容可能な平均性能の低下において頑健性の向上を継続する。
本稿では,ガウシアンの混在による分類リスクの理論的解析を行い,アルゴリズムのさらなる動機付けと知見の支持について述べる。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification [12.986535715303331]
カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。
不均衡データセットに基づいてトレーニングされた感情分類モデルは、容易に信頼性の低い予測につながる。
論文 参考訳(メタデータ) (2024-03-13T09:43:14Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Adaptive Dimension Reduction and Variational Inference for Transductive
Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。
提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-09-18T10:29:02Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Adversarial Robustness via Fisher-Rao Regularization [33.134075068748984]
適応的堅牢性は、機械学習への関心の高まりのトピックとなっている。
火はカテゴリーのクロスエントロピー損失に対する新しいフィッシャー・ラオ正規化である。
論文 参考訳(メタデータ) (2021-06-12T04:12:58Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。