論文の概要: Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients
- arxiv url: http://arxiv.org/abs/2009.13447v3
- Date: Fri, 27 Aug 2021 16:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:30:44.746334
- Title: Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients
- Title(参考訳): 確率勾配によるサンプリングバイアスの補正におけるリサンプリング性能の向上
- Authors: Jing An, Lexing Ying, Yuhua Zhu
- Abstract要約: バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
我々は、目的関数を維持するためにサブグループの比率を再均衡させる2つの一般的な手法、再サンプリングと再重み付けについて検討する。
- 参考スコア(独自算出の注目度): 10.860844636412862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A data set sampled from a certain population is biased if the subgroups of
the population are sampled at proportions that are significantly different from
their underlying proportions. Training machine learning models on biased data
sets requires correction techniques to compensate for the bias. We consider two
commonly-used techniques, resampling and reweighting, that rebalance the
proportions of the subgroups to maintain the desired objective function. Though
statistically equivalent, it has been observed that resampling outperforms
reweighting when combined with stochastic gradient algorithms. By analyzing
illustrative examples, we explain the reason behind this phenomenon using tools
from dynamical stability and stochastic asymptotics. We also present
experiments from regression, classification, and off-policy prediction to
demonstrate that this is a general phenomenon. We argue that it is imperative
to consider the objective function design and the optimization algorithm
together while addressing the sampling bias.
- Abstract(参考訳): ある集団からサンプリングされたデータセットは、その集団の下位群が基礎となる比率と著しく異なる比率でサンプリングされた場合に偏りがある。
バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
目的関数を維持するために,各部分群の比率を再バランスさせる手法として,再サンプリングと重み付けの2つを検討した。
統計的に同値であるが、確率的勾配アルゴリズムと組み合わせた場合、オーバーフォームの再サンプリングは再重み付けをもたらすことが観察されている。
この現象の背景にある理由は, 動的安定性と確率的漸近論のツールを用いて説明できる。
また, 回帰, 分類, オフ・ポリシー予測の実験を行い, これが一般的な現象であることを示す。
対象関数設計と最適化アルゴリズムを同時に考慮し,サンプリングバイアスに対処することが不可欠である。
関連論文リスト
- Optimal Downsampling for Imbalanced Classification with Generalized Linear Models [6.14486033794703]
一般化線形モデル(GLM)を用いた不均衡分類のための最適ダウンサンプリングについて検討する。
疑似疑似推定器を提案し,その正規性について,不均衡な人口の増加の文脈で検討する。
論文 参考訳(メタデータ) (2024-10-11T17:08:13Z) - NETS: A Non-Equilibrium Transport Sampler [15.58993313831079]
我々は、Non-Equilibrium Transport Sampler (NETS)と呼ばれるアルゴリズムを提案する。
NETSはJarzynskiの平等に基づいて、重要サンプリング(AIS)の亜種と見なすことができる。
このドリフトは、様々な目的関数の最小化であり、全て偏りのない方法で推定できることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:35:38Z) - Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation [0.6906005491572401]
重み付き表現学習による数値的ロバストな推定器を開発する。
提案手法は,重み値を効果的に補正することにより,既存手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-26T15:34:04Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。