Fugu-MT 論文翻訳(概要): Robust Data Pruning: Uncovering and Overcoming Implicit Bias

論文の概要: Robust Data Pruning: Uncovering and Overcoming Implicit Bias

arxiv url: http://arxiv.org/abs/2404.05579v1
Date: Mon, 8 Apr 2024 14:55:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 14:05:34.595692
Title: Robust Data Pruning: Uncovering and Overcoming Implicit Bias
Title（参考訳）: Robust Data Pruning - 意図しないバイアスの発見と克服
Authors: Artem Vysogorets, Kartik Ahuja, Julia Kempe,
Abstract要約: 我々は、この効果を初めて体系的に研究し、既存のデータプルーニングアルゴリズムが高度に偏りのある分類器を生成することを明らかにした。本稿では,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証する「フェアネス・アウェア」アプローチを提案する。
参考スコア（独自算出の注目度）: 11.930434318557156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the era of exceptionally data-hungry models, careful selection of the training data is essential to mitigate the extensive costs of deep learning. Data pruning offers a solution by removing redundant or uninformative samples from the dataset, which yields faster convergence and improved neural scaling laws. However, little is known about its impact on classification bias of the trained models. We conduct the first systematic study of this effect and reveal that existing data pruning algorithms can produce highly biased classifiers. At the same time, we argue that random data pruning with appropriate class ratios has potential to improve the worst-class performance. We propose a "fairness-aware" approach to pruning and empirically demonstrate its performance on standard computer vision benchmarks. In sharp contrast to existing algorithms, our proposed method continues improving robustness at a tolerable drop of average performance as we prune more from the datasets. We present theoretical analysis of the classification risk in a mixture of Gaussians to further motivate our algorithm and support our findings.
Abstract（参考訳）: 例外的なデータハングリーモデルの時代においては、ディープラーニングの膨大なコストを軽減するために、トレーニングデータの慎重な選択が不可欠である。データプルーニングは、データセットから冗長あるいは非形式的なサンプルを取り除くことでソリューションを提供する。しかし、訓練されたモデルの分類バイアスへの影響についてはほとんど分かっていない。我々は、この効果を初めて体系的に研究し、既存のデータプルーニングアルゴリズムが高度に偏りのある分類器を生成することを明らかにした。同時に、適切なクラス比のランダムデータプルーニングは、最悪のクラス性能を改善する可能性があると論じる。本稿では,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証する「フェアネス・アウェア」アプローチを提案する。既存のアルゴリズムとは対照的に,提案手法は,データセットからより経験を積むにつれて,許容可能な平均性能の低下において頑健性の向上を継続する。本稿では,ガウシアンの混在による分類リスクの理論的解析を行い,アルゴリズムのさらなる動機付けと知見の支持について述べる。

関連論文リスト

Improving Model Classification by Optimizing the Training Dataset [3.987352341101438]
Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-22T16:10:11Z)
AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文参考訳（メタデータ） (2025-06-24T22:35:51Z)
Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文参考訳（メタデータ） (2025-04-01T09:22:05Z)
Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文参考訳（メタデータ） (2024-11-19T14:13:25Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文参考訳（メタデータ） (2024-05-15T17:45:34Z)
PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。 PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-10T08:02:20Z)
An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification [12.986535715303331]
カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。不均衡データセットに基づいてトレーニングされた感情分類モデルは、容易に信頼性の低い予測につながる。
論文参考訳（メタデータ） (2024-03-13T09:43:14Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文参考訳（メタデータ） (2023-08-21T07:58:15Z)
Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文参考訳（メタデータ） (2023-06-16T16:30:39Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Adaptive Dimension Reduction and Variational Inference for Transductive Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文参考訳（メタデータ） (2022-09-18T10:29:02Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文参考訳（メタデータ） (2021-06-14T15:40:51Z)
Adversarial Robustness via Fisher-Rao Regularization [33.134075068748984]
適応的堅牢性は、機械学習への関心の高まりのトピックとなっている。火はカテゴリーのクロスエントロピー損失に対する新しいフィッシャー・ラオ正規化である。
論文参考訳（メタデータ） (2021-06-12T04:12:58Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。