論文の概要: Richer Countries and Richer Representations
- arxiv url: http://arxiv.org/abs/2205.05093v1
- Date: Tue, 10 May 2022 18:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:18:01.081621
- Title: Richer Countries and Richer Representations
- Title(参考訳): 富裕国や富裕層は
- Authors: Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky
- Abstract要約: 埋め込み空間において、他の国よりも豊かな表現がなされている国があるかどうかを検討する。
トレーニングコーパスの頻度が低い国では、サブワードにトークン化される傾向が見られた。
頻度は国のGDPと非常に相関しており、したがって歴史的権力と富の不平等が持続している。
- 参考スコア(独自算出の注目度): 43.0388760048554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine whether some countries are more richly represented in embedding
space than others. We find that countries whose names occur with low frequency
in training corpora are more likely to be tokenized into subwords, are less
semantically distinct in embedding space, and are less likely to be correctly
predicted: e.g., Ghana (the correct answer and in-vocabulary) is not predicted
for, "The country producing the most cocoa is [MASK].". Although these
performance discrepancies and representational harms are due to frequency, we
find that frequency is highly correlated with a country's GDP; thus
perpetuating historic power and wealth inequalities. We analyze the
effectiveness of mitigation strategies; recommend that researchers report
training word frequencies; and recommend future work for the community to
define and design representational guarantees.
- Abstract(参考訳): 埋め込み空間において他の国よりも豊かな表現がされている国があるかどうかを検討する。
トレーニングコーパスの頻度が低い国は、サブワードにトークン化される傾向があり、埋め込み空間では意味的に区別されにくく、正しく予測される可能性が低い。
これらの性能格差と代表的損害は頻度によるものであるが、その頻度は国のgdpと高い相関関係にあり、歴史的権力と富の不平等を持続する。
我々は緩和戦略の有効性を分析し、研究者は単語頻度の訓練を報告することを推奨し、コミュニティが表現保証を定義し設計することを推奨する。
関連論文リスト
- What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Fine-Grained Socioeconomic Prediction from Satellite Images with
Distributional Adjustment [14.076490368696508]
本研究では,より広い領域で観測される分布挙動を捉えることで,各衛星画像に社会経済的スコアを割り当てる手法を提案する。
我々は、順序回帰スコアモデルを訓練し、そのスコアを地域内外の共通パワー則に従うように調整する。
また, この手法は, 不均質な開発地域において, 開発途上国での利用可能性を示す。
論文 参考訳(メタデータ) (2023-08-30T12:06:04Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Geographic Citation Gaps in NLP Research [63.13508571014673]
この研究は、地理的な位置と出版の成功との関係について一連の疑問を呈する。
われわれはまず,ACLアンソロジーから7万件の論文のデータセットを作成し,そのメタ情報を抽出し,引用ネットワークを生成した。
論文の受理や引用において地理的に大きな差異があるだけでなく,出版場所やNLPのサブフィールドなどの変数を制御しても,これらの格差は持続することを示す。
論文 参考訳(メタデータ) (2022-10-26T02:25:23Z) - Decoding Demographic un-fairness from Indian Names [4.402336973466853]
デモグラフィック分類は、レコメンデーションシステムにおける公正度評価や、オンラインネットワークや投票システムにおける意図しない偏見の測定に不可欠である。
我々は3つの公開データセットを収集し、性別分類とキャスト分類の領域で最先端の分類器を訓練する。
上記のモデルの有効性を理解するために、クロステスト(異なるデータセットでのトレーニングとテスト)を実施します。
論文 参考訳(メタデータ) (2022-09-07T11:54:49Z) - Low Frequency Names Exhibit Bias and Overfitting in Contextualizing
Language Models [4.1717286666031725]
4つの言語モデルのトレーニングコーパスでは,主に女性名や非白人名が少なくなっている。
頻度の低い名前は、文脈によってより自己相似である。
人種的偏見とBERT.492の命名頻度の間のスピアマンのrは、低頻度の少数民族の名前が不快さとより関連していることを示している。
論文 参考訳(メタデータ) (2021-10-01T22:44:31Z) - BERT Has Uncommon Sense: Similarity Ranking for Word Sense BERTology [11.650381752104298]
文脈化単語埋め込みモデルが単語感覚をいかに表現できるかを考察する。
いくつかの一般的なCWEモデルは、比例的に稀な感覚であっても、明示的な感覚の監督なしに、すべてランダムなベースラインを上回ります。
論文 参考訳(メタデータ) (2021-09-20T18:15:26Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z) - Generating Interpretable Poverty Maps using Object Detection in
Satellite Images [80.35540308137043]
衛星画像に物体検出装置を適用することにより、局所レベルでの貧困を正確に予測するための解釈可能な計算手法を実証する。
対象物の重み付けを特徴として、ウガンダの村レベルの貧困を予測する0.539 Pearson's r2を達成し、既存の(解釈不可能でない)ベンチマークよりも31%改善した。
論文 参考訳(メタデータ) (2020-02-05T02:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。