論文の概要: Simpson's Bias in NLP Training
- arxiv url: http://arxiv.org/abs/2103.11795v1
- Date: Sat, 13 Mar 2021 06:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 01:04:39.553839
- Title: Simpson's Bias in NLP Training
- Title(参考訳): NLPトレーニングにおけるシンプソンのバイアス
- Authors: Fei Yuan, Longtu Zhang, Huang Bojun, Yaobo Liang
- Abstract要約: サンプルレベル損失$G$の一般的な設計は、そのタスクの真の人口レベル指標$F$と矛盾する可能性があることを示す。
我々はこの現象をシンプソンの偏見と呼び、統計学や社会科学におけるシンプソンの逆パラドックスとして知られる古典的なパラドックスと深く結びついている。
- 参考スコア(独自算出の注目度): 4.171555557592296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most machine learning tasks, we evaluate a model $M$ on a given data
population $S$ by measuring a population-level metric $F(S;M)$. Examples of
such evaluation metric $F$ include precision/recall for (binary) recognition,
the F1 score for multi-class classification, and the BLEU metric for language
generation. On the other hand, the model $M$ is trained by optimizing a
sample-level loss $G(S_t;M)$ at each learning step $t$, where $S_t$ is a subset
of $S$ (a.k.a. the mini-batch). Popular choices of $G$ include cross-entropy
loss, the Dice loss, and sentence-level BLEU scores. A fundamental assumption
behind this paradigm is that the mean value of the sample-level loss $G$, if
averaged over all possible samples, should effectively represent the
population-level metric $F$ of the task, such as, that $\mathbb{E}[ G(S_t;M) ]
\approx F(S;M)$.
In this paper, we systematically investigate the above assumption in several
NLP tasks. We show, both theoretically and experimentally, that some popular
designs of the sample-level loss $G$ may be inconsistent with the true
population-level metric $F$ of the task, so that models trained to optimize the
former can be substantially sub-optimal to the latter, a phenomenon we call it,
Simpson's bias, due to its deep connections with the classic paradox known as
Simpson's reversal paradox in statistics and social sciences.
- Abstract(参考訳): 多くの機械学習タスクにおいて、人口レベルの指標である$F(S;M)$を測定して、与えられたデータ集団に対して$M$の評価を行う。
そのような評価基準の例としては、(バイナリ)認識の精度/リコール、マルチクラス分類のf1スコア、言語生成のためのbleuメトリックなどがある。
一方、モデル $m$ は、各学習ステップ $t$ でサンプルレベルの損失 $g(s_t;m)$ を最適化することで訓練される。
minibatch (複数形 minibatchs)
G$の一般的な選択には、クロスエントロピー損失、Dice損失、文レベルのBLEUスコアがある。
このパラダイムの背後にある基本的な仮定は、サンプルレベルの損失の平均値は、すべての可能なサンプルの平均値であれば、そのタスクの集団レベルのメトリックであるf$(例えば、$\mathbb{e}[g(s_t;m) ] \approx f(s;m)$)を効果的に表すべきであるということである。
本稿では,いくつかのNLPタスクにおいて,上記の仮定を体系的に検討する。
理論的および実験的に、サンプルレベルの損失のいくつかの一般的な設計は、真の人口レベルのメートル法であるf$と矛盾する可能性があるため、前者を最適化するために訓練されたモデルが後者に実質的に最適ではないことが示されている、それは我々がシムプソンのバイアスと呼ぶ現象であり、それは、統計学と社会科学におけるシムプソンの逆転パラドックスとして知られる古典的なパラドックスと深い関係があるためである。
関連論文リスト
- Statistical-Computational Trade-offs for Recursive Adaptive Partitioning Estimators [23.056208049082134]
我々は,高次元回帰のためのグリーディアルゴリズムが局所最適点において立ち往生していることを示す。
低い推定誤差を達成するために、greedyトレーニングには$exp(Omega(d))$が必要であることを示す。
この二分法は、平均場状態における勾配降下(SGD)を訓練した2層ニューラルネットワークを反映する。
論文 参考訳(メタデータ) (2024-11-07T03:11:53Z) - Theoretical limits of descending $\ell_0$ sparse-regression ML algorithms [0.0]
本研究では,emphmaximum-likelihood (ML)デコーディングの性能解析プログラムを開発した。
ML性能パラメータの鍵となるのは、残留エンフェロ平均二乗誤差(textbfRMSE$)を発見し、いわゆるエンフェロ遷移(PT)現象を示す。
Fl RDTの具体的実装と実用的妥当性は、典型的には、基礎となる数値評価のサイズのセットを実行する能力に依存している。
論文 参考訳(メタデータ) (2024-10-10T06:33:41Z) - Optimal level set estimation for non-parametric tournament and crowdsourcing problems [49.75262185577198]
クラウドソーシングによって動機づけられた我々は、$d$の質問に対する$n$の専門家の回答の正しさを部分的に観察する問題を考える。
本稿では、専門家$i$が疑問に答える確率を含む行列$M$が、行と列の置換までの双等方性であることを仮定する。
我々は,この分類問題に対して最小限のアルゴリズムを最適に構築する。
論文 参考訳(メタデータ) (2024-08-27T18:28:31Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning [16.824515577815696]
グラディエントベースメタRL(GMRL)は、2段階の最適化手順を維持する手法である。
GMRLで採用されている既存のメタグラディエント推定器は、実際にテキストバイアスを受けていることを示す。
我々は,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。
論文 参考訳(メタデータ) (2021-12-31T11:56:40Z) - What Happens after SGD Reaches Zero Loss? --A Mathematical Framework [35.31946061894308]
SGD(Gradient Descent)の暗黙のバイアスを理解することは、ディープラーニングにおける重要な課題の1つである。
本稿では、Katzenberger (1991) のアイデアを適応させることにより、そのような分析の一般的な枠組みを提供する。
1) a global analysis of the implicit bias for $eta-2$ steps, not to the local analysis of Blanc et al. (2020) that is only for $eta-1.6$ steps and (2) allowing any noise covariance。
論文 参考訳(メタデータ) (2021-10-13T17:50:46Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。