論文の概要: Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2410.04579v4
- Date: Fri, 15 Nov 2024 21:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:34.664781
- Title: Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
- Title(参考訳): アップサンプルかアップウェイトか? 重大不均衡データセットのバランストレーニング
- Authors: Tianjian Li, Haoran Xu, Weiting Tan, Kenton Murray, Daniel Khashabi,
- Abstract要約: ドメイン間のデータの可用性は、しばしば長いテール分布に従う。
この不均衡は、すべてのドメインで一様に言語モデルをトレーニングする際の課題を生じさせる。
トレーニング中の温度サンプリングを減らし,低リソース言語に過度に適合することなく収束を加速する手法であるCooldownを提案する。
- 参考スコア(独自算出の注目度): 31.5733738608772
- License:
- Abstract: Data availability across domains often follows a long-tail distribution: a few domains have abundant data, while most face dat . a scarcity. This imbalance poses challenges in training language models uniformly across all domains. In our study, we focus on multilingual settings, where data sizes vary significantly between high- and low-resource languages. Common strategies to address this include upsampling low-resource languages (Temperature Sampling) or upweighting their loss (Scalarization). Although often considered equivalent, this assumption has not been proven, which motivates our study. Through both theoretical and empirical analysis, we identify the conditions under which these approaches are equivalent and when they diverge. Specifically, we demonstrate that these two methods are equivalent under full gradient descent, but this equivalence breaks down with stochastic gradient descent. Empirically, we observe that Temperature Sampling converges more quickly but is prone to overfitting. We argue that this faster convergence is likely due to the lower variance in gradient estimations, as shown theoretically. Based on these insights, we propose Cooldown, a strategy that reduces sampling temperature during training, accelerating convergence without overfitting to low-resource languages. Our method is competitive with existing data re-weighting and offers computational efficiency.
- Abstract(参考訳): ドメイン間のデータ可用性は、長いテールの分布に従うことが多い。
希少さ
この不均衡は、すべてのドメインで一様に言語モデルをトレーニングする際の課題を生じさせる。
本研究では,高次言語と低次言語でデータサイズが大きく異なる多言語設定に着目した。
これに対処する一般的な戦略としては、低リソース言語(温度サンプリング)のアップサンプリングや、損失のアップウェイト化(Scalarization)などがある。
しばしば同値であると思われるが、この仮定は証明されておらず、これは我々の研究の動機となっている。
理論的および経験的分析の両方を通して、これらのアプローチが等価であり、いつ発散するかを同定する。
具体的には、これらの2つの手法は完全な勾配降下の下で等価であることを示すが、この等価性は確率勾配降下とともに崩壊する。
経験的に、温度サンプリングはより早く収束するが、過度に適合する傾向があることを観察する。
この高速収束は、理論的に示されているように、勾配推定のばらつきが低いためと考えられる。
これらの知見に基づき、トレーニング中のサンプリング温度を低減し、低リソース言語に過度に適合することなく収束を加速する戦略であるCooldownを提案する。
我々の手法は既存のデータ再重み付けと競合し、計算効率を提供する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Capturing Climatic Variability: Using Deep Learning for Stochastic Downscaling [0.0]
気候変動に適応するには、正確な局地的な気候情報が必要である。
ダウンスケーリング中の変動のキャプチャは、不確実性を推定し、極端な事象を特徴づけるのに不可欠である。
本稿では,GANのキャリブレーションを3つの方法で改善する手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T03:04:10Z) - Fairness under Covariate Shift: Improving Fairness-Accuracy tradeoff
with few Unlabeled Test Samples [21.144077993862652]
我々は、ラベル付きトレーニングセットとともに、ラベル付きテストサンプルの小さなセットのみが利用可能である教師なしのシステムで運用する。
我々は、損失定式化による最適化が、最先端のベースラインよりも優れていることを実験的に検証した。
提案手法は, それらの性能を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-10-11T14:39:51Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - When are ensembles really effective? [49.37269057899679]
分類タスクにおいて,アンサンブルが顕著な性能向上をもたらす時期について検討する。
平均誤差率に対して不一致率が大きくなると,アンサンブルにより性能が大幅に向上することを示す。
アンサンブルが実現し、大きなパフォーマンス改善をもたらすことのない、実践的なシナリオを特定します。
論文 参考訳(メタデータ) (2023-05-21T01:36:25Z) - DensePure: Understanding Diffusion Models towards Adversarial Robustness [110.84015494617528]
拡散モデルの特性を解析し,それらが証明された堅牢性を高める条件を確立する。
事前訓練されたモデル(すなわち分類器)の信頼性向上を目的とした新しいDensePure法を提案する。
このロバストな領域は多重凸集合の和であり、以前の研究で特定されたロバストな領域よりもはるかに大きい可能性が示されている。
論文 参考訳(メタデータ) (2022-11-01T08:18:07Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Importance of Sampling in Learning Graph Convolutional Networks [13.713485304798368]
Graph Convolutional Networks (GCNs) は、様々なグラフ関連アプリケーションにおいて、目覚ましい進歩を遂げている。
その成功にもかかわらず、大きなグラフ上でのgcnのトレーニングは計算とメモリの問題に苦しむ。
メモリ予算下で任意のサンプリングメソッドを高速化できる一般的なtextbftextitdoubly variance reductionスキーマを記述・解析する。
論文 参考訳(メタデータ) (2021-03-03T21:31:23Z) - Minimal Variance Sampling with Provable Guarantees for Fast Training of
Graph Neural Networks [22.618779809748435]
既存のサンプリング手法は主にグラフ構造情報に基づいており、最適化の動的性を無視する。
最小分散のノードを適応的にサンプリングする(近似)勾配情報を利用する分離分散低減戦略を提案する。
提案手法は,小バッチサイズが小さい場合でも,より高速な収束率とより優れた一般化を必要とすることを理論的,実証的に示す。
論文 参考訳(メタデータ) (2020-06-24T16:49:29Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。