論文の概要: Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2410.04579v5
- Date: Sun, 09 Mar 2025 23:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:04.598577
- Title: Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets
- Title(参考訳): アップサンプルかアップウェイトか? 重大不均衡データセットのバランストレーニング
- Authors: Tianjian Li, Haoran Xu, Weiting Tan, Kenton Murray, Daniel Khashabi,
- Abstract要約: この格差に対処する2つの一般的な戦略は、低リソースデータのアップサンプリングと低リソース損失のアップウェイト化である。
これら2つの手法が等価であり、いつ分岐するかを識別する。
コンバージェンスを加速するために、低リソース言語を大々的にアップサンプリングすることから始まる戦略であるCooldownを提案する。
- 参考スコア(独自算出の注目度): 31.5733738608772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data abundance across different domains exhibits a long-tailed distribution: few domains have abundant data, while most face data scarcity. Our work focuses on a multilingual setting, where available data is heavily skewed towards high-resource languages. Two common strategies to address this disparity are upsampling low-resource data (Temperature Sampling) and upweighting low-resource loss (Scalarization). These methods are often assumed to be equivalent, but this equivalence has not been rigorously established, prompting our investigation. Through theoretical and empirical analysis, we identify when these two methods are equivalent and when they diverge. We prove that they are equivalent under full gradient descent but differ under stochastic gradient descent due to differences in gradient variance. Specifically, Temperature Sampling exhibits lower variance in gradient estimation compared to Scalarization, leading to faster convergence but a higher risk of overfitting. Based on these insights, we propose Cooldown, a strategy that starts by heavily upsampling low-resource languages to accelerate convergence and gradually reduces the upsampling to prevent overfitting -- achieving the best of both worlds. Our method competes effectively with existing data re-weighting techniques while offering computational efficiency.
- Abstract(参考訳): 異なるドメインにまたがるデータの豊富さは、長い尾の分布を示します。
当社の作業はマルチリンガルな設定に重点を置いています。
この格差に対処する2つの一般的な戦略は、低リソースデータ(温度サンプリング)のアップサンプリングと低リソース損失のアップウェイト化(Scalarization)である。
これらの方法はしばしば等価であると仮定されるが、この等価性は厳格に確立されておらず、我々の調査が進められている。
理論的および経験的分析を通じて、これらの2つの方法が等価であり、いつ分岐するかを特定する。
完全な勾配勾配下では等価であるが,勾配のばらつきの違いにより確率的勾配勾配下では等価であることが証明された。
具体的には、温度サンプリングは勾配推定のばらつきをスカラー化と比較して低くし、より高速に収束するが、過度に適合するリスクが高い。
これらの知見に基づいて,コンバージェンスを加速するため,低リソース言語を徹底的にアップサンプリングし,過度な適合を防止するため,段階的にアップサンプリングを削減し,両世界のベストを達成する戦略であるCooldownを提案する。
本手法は,計算効率を向上しつつ,既存のデータ再重み付け手法と効果的に競合する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Capturing Climatic Variability: Using Deep Learning for Stochastic Downscaling [0.0]
気候変動に適応するには、正確な局地的な気候情報が必要である。
ダウンスケーリング中の変動のキャプチャは、不確実性を推定し、極端な事象を特徴づけるのに不可欠である。
本稿では,GANのキャリブレーションを3つの方法で改善する手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T03:04:10Z) - Fairness under Covariate Shift: Improving Fairness-Accuracy tradeoff
with few Unlabeled Test Samples [21.144077993862652]
我々は、ラベル付きトレーニングセットとともに、ラベル付きテストサンプルの小さなセットのみが利用可能である教師なしのシステムで運用する。
我々は、損失定式化による最適化が、最先端のベースラインよりも優れていることを実験的に検証した。
提案手法は, それらの性能を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-10-11T14:39:51Z) - Robustness May be More Brittle than We Think under Different Degrees of
Distribution Shifts [72.90906474654594]
分散シフトの度合いが異なる場合、モデルの堅牢性はかなり不安定で不整合であることを示す。
我々は,CLIPのような大規模事前学習モデルが,新しい下流タスクの分分分布シフトに敏感であることが観察された。
論文 参考訳(メタデータ) (2023-10-10T13:39:18Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - When are ensembles really effective? [49.37269057899679]
分類タスクにおいて,アンサンブルが顕著な性能向上をもたらす時期について検討する。
平均誤差率に対して不一致率が大きくなると,アンサンブルにより性能が大幅に向上することを示す。
アンサンブルが実現し、大きなパフォーマンス改善をもたらすことのない、実践的なシナリオを特定します。
論文 参考訳(メタデータ) (2023-05-21T01:36:25Z) - PA&DA: Jointly Sampling PAth and DAta for Consistent NAS [8.737995937682271]
ワンショットNASメソッドはスーパーネットをトレーニングし、トレーニング済みの重みを継承してサブモデルを評価する。
大規模な勾配分散は、スーパーネットのトレーニング中に発生し、スーパーネットのランキング一貫性を低下させる。
本稿では,PAth と DAta のサンプリング分布を最適化することにより,スーパーネットトレーニングの勾配分散を明示的に最小化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T17:14:24Z) - DensePure: Understanding Diffusion Models towards Adversarial Robustness [110.84015494617528]
拡散モデルの特性を解析し,それらが証明された堅牢性を高める条件を確立する。
事前訓練されたモデル(すなわち分類器)の信頼性向上を目的とした新しいDensePure法を提案する。
このロバストな領域は多重凸集合の和であり、以前の研究で特定されたロバストな領域よりもはるかに大きい可能性が示されている。
論文 参考訳(メタデータ) (2022-11-01T08:18:07Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Importance of Sampling in Learning Graph Convolutional Networks [13.713485304798368]
Graph Convolutional Networks (GCNs) は、様々なグラフ関連アプリケーションにおいて、目覚ましい進歩を遂げている。
その成功にもかかわらず、大きなグラフ上でのgcnのトレーニングは計算とメモリの問題に苦しむ。
メモリ予算下で任意のサンプリングメソッドを高速化できる一般的なtextbftextitdoubly variance reductionスキーマを記述・解析する。
論文 参考訳(メタデータ) (2021-03-03T21:31:23Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Minimal Variance Sampling with Provable Guarantees for Fast Training of
Graph Neural Networks [22.618779809748435]
既存のサンプリング手法は主にグラフ構造情報に基づいており、最適化の動的性を無視する。
最小分散のノードを適応的にサンプリングする(近似)勾配情報を利用する分離分散低減戦略を提案する。
提案手法は,小バッチサイズが小さい場合でも,より高速な収束率とより優れた一般化を必要とすることを理論的,実証的に示す。
論文 参考訳(メタデータ) (2020-06-24T16:49:29Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。