論文の概要: Fast and Accurate Importance Weighting for Correcting Sample Bias
- arxiv url: http://arxiv.org/abs/2209.04215v1
- Date: Fri, 9 Sep 2022 10:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:00:02.268387
- Title: Fast and Accurate Importance Weighting for Correcting Sample Bias
- Title(参考訳): サンプルバイアスの修正のための迅速かつ正確な重み付け
- Authors: Antoine de Mathelin, Francois Deheeger, Mathilde Mougeot, Nicolas
Vayatis
- Abstract要約: 本稿では,ニューラルネットワークを用いてインスタンス重みを予測し,大規模データセットにスケールする,新たな重み付けアルゴリズムを提案する。
提案手法は,他の重み付け手法と比較して,類似のサンプルバイアス補正性能を維持しつつ,大規模データセット上での計算時間を劇的に短縮することを示す。
- 参考スコア(独自算出の注目度): 4.750521042508541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bias in datasets can be very detrimental for appropriate statistical
estimation. In response to this problem, importance weighting methods have been
developed to match any biased distribution to its corresponding target unbiased
distribution. The seminal Kernel Mean Matching (KMM) method is, nowadays, still
considered as state of the art in this research field. However, one of the main
drawbacks of this method is the computational burden for large datasets.
Building on previous works by Huang et al. (2007) and de Mathelin et al.
(2021), we derive a novel importance weighting algorithm which scales to large
datasets by using a neural network to predict the instance weights. We show, on
multiple public datasets, under various sample biases, that our proposed
approach drastically reduces the computational time on large dataset while
maintaining similar sample bias correction performance compared to other
importance weighting methods. The proposed approach appears to be the only one
able to give relevant reweighting in a reasonable time for large dataset with
up to two million data.
- Abstract(参考訳): データセットのバイアスは、適切な統計推定に非常に有害である。
この問題に対する重み付け法は,任意の偏り分布と対応する非偏り分布とを一致させるために開発された。
KMM法(en:Kernel Mean Matching)は現在でも研究分野における最先端技術であると考えられている。
しかし,本手法の主な欠点の1つは,大規模データセットの計算負担である。
Huang et al. (2007) と de Mathelin et al. (2021) による以前の研究に基づいて、ニューラルネットワークを用いてインスタンスの重みを予測し、大規模データセットにスケールする新しい重要重み付けアルゴリズムを導出する。
複数の公開データセットにおいて,様々なサンプルバイアスの下で,提案手法が大規模データセットの計算時間を劇的に短縮するとともに,他の重み付け手法と比較して類似したサンプルバイアス補正性能を維持することを示した。
提案されたアプローチは,200万までのデータを持つ大規模データセットに対して,適切な時間内に適切な重み付けを行うことのできる唯一の方法だと思われる。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification [1.03590082373586]
本稿では,MapReduceフレームワークを用いて,インテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせたSMOTENNという新しいリサンプリング手法を提案する。
実験の結果,この手法の利点が示され,小規模・中規模のデータセットに対する代替サンプリング技術よりも優れていた。
論文 参考訳(メタデータ) (2023-10-09T15:22:13Z) - Correcting sampling biases via importance reweighting for spatial
modeling [2.6862667248315386]
機械学習モデルでは、分布バイアスによってエラーの見積もりが複雑になることが多い。
本稿では,重要サンプリングの考え方に基づいて,対象誤差の偏りのない推定値を求める手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T15:36:28Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。