Fugu-MT 論文翻訳(概要): DRoP: Distributionally Robust Pruning

論文の概要: DRoP: Distributionally Robust Pruning

arxiv url: http://arxiv.org/abs/2404.05579v2
Date: Sat, 19 Oct 2024 13:44:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.748969
Title: DRoP: Distributionally Robust Pruning
Title（参考訳）: DRoP: 分散ロバストプルーニング
Authors: Artem Vysogorets, Kartik Ahuja, Julia Kempe,
Abstract要約: 我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
参考スコア（独自算出の注目度）: 11.930434318557156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the era of exceptionally data-hungry models, careful selection of the training data is essential to mitigate the extensive costs of deep learning. Data pruning offers a solution by removing redundant or uninformative samples from the dataset, which yields faster convergence and improved neural scaling laws. However, little is known about its impact on classification bias of the trained models. We conduct the first systematic study of this effect and reveal that existing data pruning algorithms can produce highly biased classifiers. We present theoretical analysis of the classification risk in a mixture of Gaussians to argue that choosing appropriate class pruning ratios, coupled with random pruning within classes has potential to improve worst-class performance. We thus propose DRoP, a distributionally robust approach to pruning and empirically demonstrate its performance on standard computer vision benchmarks. In sharp contrast to existing algorithms, our proposed method continues improving distributional robustness at a tolerable drop of average performance as we prune more from the datasets.
Abstract（参考訳）: 例外的なデータハングリーモデルの時代においては、ディープラーニングの膨大なコストを軽減するために、トレーニングデータの慎重な選択が不可欠である。データプルーニングは、データセットから冗長あるいは非形式的なサンプルを取り除くことでソリューションを提供する。しかし、訓練されたモデルの分類バイアスへの影響についてはほとんど分かっていない。我々は、この効果を初めて体系的に研究し、既存のデータプルーニングアルゴリズムが高度に偏りのある分類器を生成することを明らかにした。本稿では,クラス内のランダムプルーニングと組み合わせて適切なクラスプルーニング比を選択すると,最悪のクラス性能が向上する可能性を議論するため,ガウシアンの混在による分類リスクの理論的解析を行う。そこで我々は,DRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。既存のアルゴリズムとは対照的に,提案手法では,データセットからより多くのデータを取得することで,平均性能の低下が許容できるような分散ロバスト性の向上を継続する。

関連論文リスト

RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models [14.093802378976315]
拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
論文参考訳（メタデータ） (2025-12-29T06:44:06Z)
Improving Model Classification by Optimizing the Training Dataset [3.987352341101438]
Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-22T16:10:11Z)
AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文参考訳（メタデータ） (2025-06-24T22:35:51Z)
Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文参考訳（メタデータ） (2025-04-01T09:22:05Z)
Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文参考訳（メタデータ） (2024-11-19T14:13:25Z)
ProFL: Performative Robust Optimal Federated Learning [20.54517189040872]
変形予測(Performative prediction)は、機械学習モデルのトレーニング中に発生する凸分布シフトである。本稿では,フェデレート学習における性能最適点を抽出するPerformative Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-23T17:57:14Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文参考訳（メタデータ） (2024-05-15T17:45:34Z)
PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。 PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-10T08:02:20Z)
An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification [12.986535715303331]
カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。不均衡データセットに基づいてトレーニングされた感情分類モデルは、容易に信頼性の低い予測につながる。
論文参考訳（メタデータ） (2024-03-13T09:43:14Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文参考訳（メタデータ） (2023-08-21T07:58:15Z)
Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文参考訳（メタデータ） (2023-06-16T16:30:39Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Adaptive Dimension Reduction and Variational Inference for Transductive Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文参考訳（メタデータ） (2022-09-18T10:29:02Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文参考訳（メタデータ） (2021-06-14T15:40:51Z)
Adversarial Robustness via Fisher-Rao Regularization [33.134075068748984]
適応的堅牢性は、機械学習への関心の高まりのトピックとなっている。火はカテゴリーのクロスエントロピー損失に対する新しいフィッシャー・ラオ正規化である。
論文参考訳（メタデータ） (2021-06-12T04:12:58Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。