論文の概要: Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients
- arxiv url: http://arxiv.org/abs/2009.13447v3
- Date: Fri, 27 Aug 2021 16:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:30:44.746334
- Title: Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients
- Title(参考訳): 確率勾配によるサンプリングバイアスの補正におけるリサンプリング性能の向上
- Authors: Jing An, Lexing Ying, Yuhua Zhu
- Abstract要約: バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
我々は、目的関数を維持するためにサブグループの比率を再均衡させる2つの一般的な手法、再サンプリングと再重み付けについて検討する。
- 参考スコア(独自算出の注目度): 10.860844636412862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A data set sampled from a certain population is biased if the subgroups of
the population are sampled at proportions that are significantly different from
their underlying proportions. Training machine learning models on biased data
sets requires correction techniques to compensate for the bias. We consider two
commonly-used techniques, resampling and reweighting, that rebalance the
proportions of the subgroups to maintain the desired objective function. Though
statistically equivalent, it has been observed that resampling outperforms
reweighting when combined with stochastic gradient algorithms. By analyzing
illustrative examples, we explain the reason behind this phenomenon using tools
from dynamical stability and stochastic asymptotics. We also present
experiments from regression, classification, and off-policy prediction to
demonstrate that this is a general phenomenon. We argue that it is imperative
to consider the objective function design and the optimization algorithm
together while addressing the sampling bias.
- Abstract(参考訳): ある集団からサンプリングされたデータセットは、その集団の下位群が基礎となる比率と著しく異なる比率でサンプリングされた場合に偏りがある。
バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
目的関数を維持するために,各部分群の比率を再バランスさせる手法として,再サンプリングと重み付けの2つを検討した。
統計的に同値であるが、確率的勾配アルゴリズムと組み合わせた場合、オーバーフォームの再サンプリングは再重み付けをもたらすことが観察されている。
この現象の背景にある理由は, 動的安定性と確率的漸近論のツールを用いて説明できる。
また, 回帰, 分類, オフ・ポリシー予測の実験を行い, これが一般的な現象であることを示す。
対象関数設計と最適化アルゴリズムを同時に考慮し,サンプリングバイアスに対処することが不可欠である。
関連論文リスト
- Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Spectrum-Aware Adjustment: A New Debiasing Framework with Applications
to Principal Component Regression [1.5863809575305419]
我々は高次元線形回帰のための新しいデバイアス化フレームワークを導入する。
特徴量とサンプルの数が大小を問わず比較できるような,一般的な設定について検討する。
本手法は,自由度デバイアスをマージンで上回ることを示す。
論文 参考訳(メタデータ) (2023-09-14T15:58:30Z) - Understanding Pathologies of Deep Heteroskedastic Regression [25.509884677111344]
ヘテロスケダスティックモデルは各データポイントの平均ノイズと残留ノイズの両方を予測する。
極端に言えば、これらのモデルはすべてのトレーニングデータを完璧に適合させ、残音を完全に排除する。
他方では、一定で非形式的な平均を予測しながら残音を過度に補正する。
中間地盤の欠如を観察し, モデル正則化強度に依存する相転移を示唆した。
論文 参考訳(メタデータ) (2023-06-29T06:31:27Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。