論文の概要: Statistically Profiling Biases in Natural Language Reasoning Datasets
and Models
- arxiv url: http://arxiv.org/abs/2102.04632v1
- Date: Tue, 9 Feb 2021 03:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 16:44:04.554211
- Title: Statistically Profiling Biases in Natural Language Reasoning Datasets
and Models
- Title(参考訳): 自然言語推論データセットとモデルにおける統計的プロファイルバイアス
- Authors: Shanshan Huang and Kenny Q. Zhu
- Abstract要約: 最近の研究は、多くの自然言語理解と推論データセットが、NLPモデルによって活用される可能性のある統計的手がかりを含んでいることを示している。
提案する軽量で一般的な統計プロファイリングフレームワークであるICQ (I-See-Cue) は,任意のNLUデータセットのバイアスを自動的に識別する。
- 参考スコア(独自算出の注目度): 12.779884993866045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has indicated that many natural language understanding and
reasoning datasets contain statistical cues that may be taken advantaged of by
NLP models whose capability may thus be grossly overestimated. To discover the
potential weakness in the models, some human-designed stress tests have been
proposed but they are expensive to create and do not generalize to arbitrary
models. We propose a light-weight and general statistical profiling framework,
ICQ (I-See-Cue), which automatically identifies possible biases in any
multiple-choice NLU datasets without the need to create any additional test
cases, and further evaluates through blackbox testing the extent to which
models may exploit these biases.
- Abstract(参考訳): 最近の研究では、多くの自然言語理解と推論データセットには、NLPモデルによって活用される可能性のある統計的手がかりが含まれていることが示されています。
モデルの潜在的な弱点を発見するために、いくつかの人間設計のストレステストが提案されているが、それらは作成に費用がかかり、任意のモデルに一般化しない。
我々は、追加のテストケースを作成することなく、任意の複数選択NLUデータセットのバイアスを自動的に識別する軽量で一般的な統計プロファイリングフレームワークICQ(I-See-Cue)を提案し、さらにモデルがこれらのバイアスを利用する程度をブラックボックステストを通して評価する。
関連論文リスト
- Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Quantile-constrained Wasserstein projections for robust interpretability
of numerical and machine learning models [18.771531343438227]
ブラックボックスモデルの研究は、しばしば入力に課される確率構造を含む感度分析に基づいている。
我々の研究は、両方のパラダイムに関連性があり使いやすいツールを提供することで、UQとMLの解釈可能性アプローチを統合することを目的としています。
論文 参考訳(メタデータ) (2022-09-23T11:58:03Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Statistical quantification of confounding bias in predictive modelling [0.0]
未確立モデルと完全構築モデルのnull仮説を探索する部分的および完全共創テストを提案する。
このテストは、非正規および非線形依存の予測であっても、I型エラーと高い統計的パワーに対して厳格な制御を提供する。
論文 参考訳(メタデータ) (2021-11-01T10:35:24Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Goodness-of-Fit Test for Mismatched Self-Exciting Processes [18.892845399295254]
我々は、擬似リフタル推定器(QMLE)の古典的統計理論とこの問題に新たな関連性を持たせることにより、自己励振過程の生成モデルのためのGOFテストを開発する。
本稿では,GOFテストのための非パラメトリック自己正規化統計学:一般スコア統計学(GS)について述べる。
論文 参考訳(メタデータ) (2020-06-16T18:31:33Z) - Density of States Estimation for Out-of-Distribution Detection [69.90130863160384]
DoSEは状態推定器の密度である。
我々は、他の教師なしOOD検出器に対するDoSEの最先端性能を実証する。
論文 参考訳(メタデータ) (2020-06-16T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。