論文の概要: Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2410.04579v5
- Date: Sun, 09 Mar 2025 23:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:40.286729
- Title: Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
- Title(参考訳): アップサンプルかアップウェイトか? 重大不均衡データセットのバランストレーニング
- Authors: Tianjian Li, Haoran Xu, Weiting Tan, Kenton Murray, Daniel Khashabi,
- Abstract要約: この格差に対処する2つの一般的な戦略は、低リソースデータのアップサンプリングと低リソース損失のアップウェイト化である。
これら2つの手法が等価であり、いつ分岐するかを識別する。
コンバージェンスを加速するために、低リソース言語を大々的にアップサンプリングすることから始まる戦略であるCooldownを提案する。
- 参考スコア(独自算出の注目度): 31.5733738608772
- License:
- Abstract: Data abundance across different domains exhibits a long-tailed distribution: few domains have abundant data, while most face data scarcity. Our work focuses on a multilingual setting, where available data is heavily skewed towards high-resource languages. Two common strategies to address this disparity are upsampling low-resource data (Temperature Sampling) and upweighting low-resource loss (Scalarization). These methods are often assumed to be equivalent, but this equivalence has not been rigorously established, prompting our investigation. Through theoretical and empirical analysis, we identify when these two methods are equivalent and when they diverge. We prove that they are equivalent under full gradient descent but differ under stochastic gradient descent due to differences in gradient variance. Specifically, Temperature Sampling exhibits lower variance in gradient estimation compared to Scalarization, leading to faster convergence but a higher risk of overfitting. Based on these insights, we propose Cooldown, a strategy that starts by heavily upsampling low-resource languages to accelerate convergence and gradually reduces the upsampling to prevent overfitting -- achieving the best of both worlds. Our method competes effectively with existing data re-weighting techniques while offering computational efficiency.
- Abstract(参考訳): 異なるドメインにまたがるデータの豊富さは、長い尾の分布を示します。
当社の作業はマルチリンガルな設定に重点を置いています。
この格差に対処する2つの一般的な戦略は、低リソースデータ(温度サンプリング)のアップサンプリングと低リソース損失のアップウェイト化(Scalarization)である。
これらの方法はしばしば等価であると仮定されるが、この等価性は厳格に確立されておらず、我々の調査が進められている。
理論的および経験的分析を通じて、これらの2つの方法が等価であり、いつ分岐するかを特定する。
完全な勾配勾配下では等価であるが,勾配のばらつきの違いにより確率的勾配勾配下では等価であることが証明された。
具体的には、温度サンプリングは勾配推定のばらつきをスカラー化と比較して低くし、より高速に収束するが、過度に適合するリスクが高い。
これらの知見に基づいて,コンバージェンスを加速するため,低リソース言語を徹底的にアップサンプリングし,過度な適合を防止するため,段階的にアップサンプリングを削減し,両世界のベストを達成する戦略であるCooldownを提案する。
本手法は,計算効率を向上しつつ,既存のデータ再重み付け手法と効果的に競合する。
関連論文リスト
- Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Capturing Climatic Variability: Using Deep Learning for Stochastic Downscaling [0.0]
気候変動に適応するには、正確な局地的な気候情報が必要である。
ダウンスケーリング中の変動のキャプチャは、不確実性を推定し、極端な事象を特徴づけるのに不可欠である。
本稿では,GANのキャリブレーションを3つの方法で改善する手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T03:04:10Z) - Fairness under Covariate Shift: Improving Fairness-Accuracy tradeoff
with few Unlabeled Test Samples [21.144077993862652]
我々は、ラベル付きトレーニングセットとともに、ラベル付きテストサンプルの小さなセットのみが利用可能である教師なしのシステムで運用する。
我々は、損失定式化による最適化が、最先端のベースラインよりも優れていることを実験的に検証した。
提案手法は, それらの性能を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-10-11T14:39:51Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - DensePure: Understanding Diffusion Models towards Adversarial Robustness [110.84015494617528]
拡散モデルの特性を解析し,それらが証明された堅牢性を高める条件を確立する。
事前訓練されたモデル(すなわち分類器)の信頼性向上を目的とした新しいDensePure法を提案する。
このロバストな領域は多重凸集合の和であり、以前の研究で特定されたロバストな領域よりもはるかに大きい可能性が示されている。
論文 参考訳(メタデータ) (2022-11-01T08:18:07Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Importance of Sampling in Learning Graph Convolutional Networks [13.713485304798368]
Graph Convolutional Networks (GCNs) は、様々なグラフ関連アプリケーションにおいて、目覚ましい進歩を遂げている。
その成功にもかかわらず、大きなグラフ上でのgcnのトレーニングは計算とメモリの問題に苦しむ。
メモリ予算下で任意のサンプリングメソッドを高速化できる一般的なtextbftextitdoubly variance reductionスキーマを記述・解析する。
論文 参考訳(メタデータ) (2021-03-03T21:31:23Z) - Minimal Variance Sampling with Provable Guarantees for Fast Training of
Graph Neural Networks [22.618779809748435]
既存のサンプリング手法は主にグラフ構造情報に基づいており、最適化の動的性を無視する。
最小分散のノードを適応的にサンプリングする(近似)勾配情報を利用する分離分散低減戦略を提案する。
提案手法は,小バッチサイズが小さい場合でも,より高速な収束率とより優れた一般化を必要とすることを理論的,実証的に示す。
論文 参考訳(メタデータ) (2020-06-24T16:49:29Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。