Fugu-MT 論文翻訳(概要): Restoring balance: principled under/oversampling of data for optimal classification

論文の概要: Restoring balance: principled under/oversampling of data for optimal classification

arxiv url: http://arxiv.org/abs/2405.09535v1
Date: Wed, 15 May 2024 17:45:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 12:46:34.986207
Title: Restoring balance: principled under/oversampling of data for optimal classification
Title（参考訳）: 復元バランス:最適な分類のためのデータのアンダー/オーバーサンプリングの原則
Authors: Emanuele Loffredo, Mauro Pastore, Simona Cocco, Rémi Monasson,
Abstract要約: 実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Class imbalance in real-world data poses a common bottleneck for machine learning tasks, since achieving good generalization on under-represented examples is often challenging. Mitigation strategies, such as under or oversampling the data depending on their abundances, are routinely proposed and tested empirically, but how they should adapt to the data statistics remains poorly understood. In this work, we determine exact analytical expressions of the generalization curves in the high-dimensional regime for linear classifiers (Support Vector Machines). We also provide a sharp prediction of the effects of under/oversampling strategies depending on class imbalance, first and second moments of the data, and the metrics of performance considered. We show that mixed strategies involving under and oversampling of data lead to performance improvement. Through numerical experiments, we show the relevance of our theoretical predictions on real datasets, on deeper architectures and with sampling strategies based on unsupervised probabilistic models.
Abstract（参考訳）: 実世界のデータのクラス不均衡は機械学習のタスクに共通のボトルネックをもたらす。データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされるが、データ統計にどのように適応すべきかは、まだよく分かっていない。本研究では,線形分類器の高次元状態における一般化曲線の正確な解析式を決定する(Support Vector Machines)。また、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。データのアンダーとオーバーサンプリングを含む混合戦略がパフォーマンス改善につながっていることを示す。数値実験を通じて、実際のデータセット、より深いアーキテクチャ、および教師なし確率モデルに基づくサンプリング戦略に基づく理論予測の妥当性を示す。

関連論文リスト

From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning [27.3606707777401]
線形CNN(弱)から2層ReLU CNN(強)への弱強一般化の形式解析を提供する。分析では、データセットの信号対雑音特性に基づいて、データスカースとデータバウンダントという2つのレシエーションを特定した。
論文参考訳（メタデータ） (2025-10-28T07:53:24Z)
Optimal Regularization for Performative Learning [29.2228276896028]
高次元隆起回帰における影響を研究することにより、正規化がパフォーマンス効果にどう対処できるかを示す。最適正則化は性能効果の総合的な強さでスケールし、この効果を期待して正則化を設定することができることを示す。
論文参考訳（メタデータ） (2025-10-14T08:00:08Z)
A Statistical Theory of Contrastive Learning via Approximate Sufficient Statistics [19.24473530318175]
我々はデータ拡張に基づくコントラスト学習を解析するための新しい理論フレームワークを開発した。我々は,SimCLRなどのコントラスト損失を最小化すれば,ほぼ十分エンコーダが得られることを示す。
論文参考訳（メタデータ） (2025-03-21T21:07:18Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Histogram Approaches for Imbalanced Data Streams Regression [1.8385275253826225]
不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
論文参考訳（メタデータ） (2025-01-29T11:03:02Z)
DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文参考訳（メタデータ） (2024-04-08T14:55:35Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
Bias-inducing geometries: an exactly solvable data model with fairness implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文参考訳（メタデータ） (2022-05-31T16:27:57Z)
Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文参考訳（メタデータ） (2022-02-17T00:38:35Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Linear Regression with Distributed Learning: A Generalization Error Perspective [0.0]
大規模線形回帰のための分散学習の性能を検討する。我々は、一般化エラー、すなわち、見当たらないデータのパフォーマンスに焦点を当てる。その結果、分散ソリューションの一般化誤差は、集中ソリューションの一般化誤差よりも大幅に高いことが示された。
論文参考訳（メタデータ） (2021-01-22T08:43:28Z)
On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文参考訳（メタデータ） (2020-05-01T02:08:58Z)
Learning Unbiased Representations via Mutual Information Backpropagation [36.383338079229695]
特に、モデルによって学習された場合、データのいくつかの属性(バイアス)が一般化特性を著しく損なう可能性がある場合に直面します。本稿では,学習した表現とデータ属性の相互情報を同時に推定し,最小化する,新しいエンドツーエンド最適化手法を提案する。
論文参考訳（メタデータ） (2020-03-13T18:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。