論文の概要: Richer Countries and Richer Representations
- arxiv url: http://arxiv.org/abs/2205.05093v1
- Date: Tue, 10 May 2022 18:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:18:01.081621
- Title: Richer Countries and Richer Representations
- Title(参考訳): 富裕国や富裕層は
- Authors: Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky
- Abstract要約: 埋め込み空間において、他の国よりも豊かな表現がなされている国があるかどうかを検討する。
トレーニングコーパスの頻度が低い国では、サブワードにトークン化される傾向が見られた。
頻度は国のGDPと非常に相関しており、したがって歴史的権力と富の不平等が持続している。
- 参考スコア(独自算出の注目度): 43.0388760048554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine whether some countries are more richly represented in embedding
space than others. We find that countries whose names occur with low frequency
in training corpora are more likely to be tokenized into subwords, are less
semantically distinct in embedding space, and are less likely to be correctly
predicted: e.g., Ghana (the correct answer and in-vocabulary) is not predicted
for, "The country producing the most cocoa is [MASK].". Although these
performance discrepancies and representational harms are due to frequency, we
find that frequency is highly correlated with a country's GDP; thus
perpetuating historic power and wealth inequalities. We analyze the
effectiveness of mitigation strategies; recommend that researchers report
training word frequencies; and recommend future work for the community to
define and design representational guarantees.
- Abstract(参考訳): 埋め込み空間において他の国よりも豊かな表現がされている国があるかどうかを検討する。
トレーニングコーパスの頻度が低い国は、サブワードにトークン化される傾向があり、埋め込み空間では意味的に区別されにくく、正しく予測される可能性が低い。
これらの性能格差と代表的損害は頻度によるものであるが、その頻度は国のgdpと高い相関関係にあり、歴史的権力と富の不平等を持続する。
我々は緩和戦略の有効性を分析し、研究者は単語頻度の訓練を報告することを推奨し、コミュニティが表現保証を定義し設計することを推奨する。
関連論文リスト
- Earnings-22: A Practical Benchmark for Accents in the Wild [0.8039067099377079]
Earnings-22は125のファイルで、119時間に119回の英語による決算報告を世界企業から集めています。
個々の単語誤り率(IWER)を調べることで、重要な音声特徴が特定のアクセントに対して、他のアクセントよりもモデル性能に影響を及ぼすことが分かる。
論文 参考訳(メタデータ) (2022-03-29T14:02:57Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Combating Noise: Semi-supervised Learning by Region Uncertainty
Quantification [55.23467274564417]
現在の手法は、擬似ラベルによって生成されるノイズの多い領域によって容易に妨げられる。
領域の不確実性を定量化して雑音耐性半教師付き学習を提案する。
PASCAL VOCとMS COCOの併用実験により,本手法の異常な性能を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:23:42Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z) - Low Frequency Names Exhibit Bias and Overfitting in Contextualizing
Language Models [4.1717286666031725]
4つの言語モデルのトレーニングコーパスでは,主に女性名や非白人名が少なくなっている。
頻度の低い名前は、文脈によってより自己相似である。
人種的偏見とBERT.492の命名頻度の間のスピアマンのrは、低頻度の少数民族の名前が不快さとより関連していることを示している。
論文 参考訳(メタデータ) (2021-10-01T22:44:31Z) - BERT Has Uncommon Sense: Similarity Ranking for Word Sense BERTology [11.650381752104298]
文脈化単語埋め込みモデルが単語感覚をいかに表現できるかを考察する。
いくつかの一般的なCWEモデルは、比例的に稀な感覚であっても、明示的な感覚の監督なしに、すべてランダムなベースラインを上回ります。
論文 参考訳(メタデータ) (2021-09-20T18:15:26Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z) - Under the Radar -- Auditing Fairness in ML for Humanitarian Mapping [15.241948239953444]
宇宙からの人道的マッピングアプローチが予測に偏りがあるかどうかを考察する。
本研究では、夜間光(NTL)に基づくインドにおける村レベルの貧困度と電力消費量を、線形回帰とランダムな森林を用いてマップする。
その結果,貧困は体系的に過大評価され,系統的に過小評価されていることが示唆された。
論文 参考訳(メタデータ) (2021-08-04T16:11:39Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。