論文の概要: Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the
Research Manifold
- arxiv url: http://arxiv.org/abs/2206.09755v1
- Date: Mon, 20 Jun 2022 13:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 10:36:59.313946
- Title: Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the
Research Manifold
- Title(参考訳): nlpにおける正方偏差:研究多様体の多次元探索に向けて
- Authors: Sebastian Ruder, Ivan Vuli\'c, Anders S{\o}gaard
- Abstract要約: 我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示す。
NLP研究は正方形ではなく、精度だけでなく、公平性や解釈可能性にも焦点をあてる。
- 参考スコア(独自算出の注目度): 88.83876819883653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prototypical NLP experiment trains a standard architecture on labeled
English data and optimizes for accuracy, without accounting for other
dimensions such as fairness, interpretability, or computational efficiency. We
show through a manual classification of recent NLP research papers that this is
indeed the case and refer to it as the square one experimental setup. We
observe that NLP research often goes beyond the square one setup, e.g, focusing
not only on accuracy, but also on fairness or interpretability, but typically
only along a single dimension. Most work targeting multilinguality, for
example, considers only accuracy; most work on fairness or interpretability
considers only English; and so on. We show this through manual classification
of recent NLP research papers and ACL Test-of-Time award recipients. Such
one-dimensionality of most research means we are only exploring a fraction of
the NLP research search space. We provide historical and recent examples of how
the square one bias has led researchers to draw false conclusions or make
unwise choices, point to promising yet unexplored directions on the research
manifold, and make practical recommendations to enable more multi-dimensional
research. We open-source the results of our annotations to enable further
analysis at https://github.com/google-research/url-nlp
- Abstract(参考訳): 原型的nlp実験はラベル付き英語データの標準アーキテクチャを訓練し、公平性、解釈性、計算効率といった他の次元を考慮せずに精度を最適化する。
我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示すとともに、これを正方形の実験装置と呼ぶ。
NLP研究は、例えば、精度だけでなく、公正性や解釈可能性にも焦点をあてるだけでなく、通常は単一の次元に沿っている。
例えば多言語を対象とする作業の多くは正確さのみを考慮し、公平性や解釈可能性に関する作業は英語のみを考慮している。
我々は,最近のNLP研究論文とACLテスト・オブ・タイム賞受賞者の手動分類を通じてこれを示す。
ほとんどの研究の1次元性は、NLPリサーチサーチスペースのごく一部しか探索していないことを意味する。
四角いバイアスは、研究者が誤った結論を導いたり、無分別な選択をしたり、研究多様体上で未探究の方向を約束したり、より多次元的な研究を可能にするために実用的な推奨を行った歴史的および最近の例を提供する。
我々はアノテーションの結果をオープンソース化し、https://github.com/google-research/url-nlpでさらなる分析を可能にする。
関連論文リスト
- Fairpriori: Improving Biased Subgroup Discovery for Deep Neural Network Fairness [21.439820064223877]
本稿では,新しいバイアス付きサブグループ発見法であるFairprioriを紹介する。
このアルゴリズムは、交差点バイアスの効率的かつ効率的な調査を容易にするために、頻繁なアイテムセット生成アルゴリズムを組み込んでいる。
フェアプリオリは交叉バイアスを特定する際に優れた効果と効率を示す。
論文 参考訳(メタデータ) (2024-06-25T00:15:13Z) - Are fairness metric scores enough to assess discrimination biases in
machine learning? [4.073786857780967]
我々は,Biosデータセットに焦点をあて,学習課題は,その伝記に基づいて個人の職業を予測することである。
我々は、グループワイドフェアネスメトリクスを扱う理論的議論の重要な制限に対処する。
そして、トレーニングセットのサイズが、合理的に正確な予測を学習するのに十分な場合、どの程度の信頼性が一般的なバイアスの尺度に異なるのかを問う。
論文 参考訳(メタデータ) (2023-06-08T15:56:57Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Fair Enough: Standardizing Evaluation and Model Selection for Fairness
Research in NLP [64.45845091719002]
現代のNLPシステムは様々なバイアスを示しており、モデル偏見に関する文献が増えている。
本稿では,その現状を解明し,公正学習における意味ある進歩の道筋を立案することを目的とする。
論文 参考訳(メタデータ) (2023-02-11T14:54:00Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文 参考訳(メタデータ) (2020-10-13T18:00:02Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。