論文の概要: Pre-Trained Language Models Represent Some Geographic Populations Better Than Others
- arxiv url: http://arxiv.org/abs/2403.11025v1
- Date: Sat, 16 Mar 2024 22:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:36:44.390509
- Title: Pre-Trained Language Models Represent Some Geographic Populations Better Than Others
- Title(参考訳): 事前学習された言語モデルでは、地理的人口が他の言語よりも良く表現される
- Authors: Jonathan Dunn, Benjamin Adams, Harish Tayyar Madabushi,
- Abstract要約: 本稿では, LLM の2つの家系が地理的に多様であることを示す。
アメリカやイギリスでは人口がかなり多いが、南アジアや東南アジアでは人口が不足している。
- 参考スコア(独自算出の注目度): 2.5193191501662144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper measures the skew in how well two families of LLMs represent diverse geographic populations. A spatial probing task is used with geo-referenced corpora to measure the degree to which pre-trained language models from the OPT and BLOOM series represent diverse populations around the world. Results show that these models perform much better for some populations than others. In particular, populations across the US and the UK are represented quite well while those in South and Southeast Asia are poorly represented. Analysis shows that both families of models largely share the same skew across populations. At the same time, this skew cannot be fully explained by sociolinguistic factors, economic factors, or geographic factors. The basic conclusion from this analysis is that pre-trained models do not equally represent the world's population: there is a strong skew towards specific geographic populations. This finding challenges the idea that a single model can be used for all populations.
- Abstract(参考訳): 本稿では, LLM の2つの家系が地理的に多様であることを示す。
OPTおよびBLOOMシリーズの事前学習された言語モデルが世界中の多様な人口を表す程度を測定するために、空間探索タスクがジオリファレンスコーパスと共に使用される。
結果は、これらのモデルが一部の個体群で他の個体群よりもはるかに優れていることを示している。
特に、アメリカやイギリスでは人口がかなり多く、南アジアや東南アジアでは人口が不足している。
分析の結果、どちらのモデルも人口でも同じ傾向にあることが判明した。
同時に、このスキューは社会言語学的要因、経済要因、地理的要因によって完全に説明できない。
この分析から得られた基本的な結論は、事前訓練されたモデルは世界の人口を等しく表さないということである。
この発見は、一つのモデルがすべての人口に使えるという考えに挑戦する。
関連論文リスト
- Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a
Large Language Model Based on Group-Level Demographic Information [15.435605802794408]
大規模言語モデルは、人口統計情報に関連する社会的バイアスを示す。
人口サブグループの意見をエミュレートする「ランダムシリコンサンプリング」を提案する。
言語モデルは、実際のアメリカの世論調査と非常によく似た応答分布を生成できる。
論文 参考訳(メタデータ) (2024-02-28T08:09:14Z) - Large Language Models are Geographically Biased [47.88767211956144]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - Questioning the Survey Responses of Large Language Models [18.61486375469644]
我々は,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイに基づいて,言語モデルの調査結果を批判的に調査する。
モデル応答は、バイアスの順序付けとラベル付けによって制御され、体系的バイアスの調整後に持続しないモデル間のバリエーションが生じる。
本研究は, モデルによる調査回答を, 個体群と同等に扱うことの注意を喚起するものである。
論文 参考訳(メタデータ) (2023-06-13T17:48:27Z) - Spatial Implicit Neural Representations for Global-Scale Species Mapping [72.92028508757281]
ある種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するためのモデルを構築することが目的である。
従来の手法は、新たな大規模クラウドソースデータセットを活用するのに苦労している。
本研究では,47k種の地理的範囲を同時に推定するために,空間入射ニューラル表現(SINR)を用いる。
論文 参考訳(メタデータ) (2023-06-05T03:36:01Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Learning Economic Indicators by Aggregating Multi-Level Geospatial
Information [20.0397537179667]
本研究は,複数レベルの地理的単位から観測される特徴を集約することで,経済指標を予測するための深層学習モデルを提案する。
我々の新しいマルチレベル学習モデルは、人口、購買力、エネルギー消費などの重要な指標を予測する上で、強いベースラインを著しく上回ります。
我々は、不平等と貧困に関する政策・社会科学研究において不可欠な第一歩である不平等を測定するためのマルチレベルモデルについて論じる。
論文 参考訳(メタデータ) (2022-05-03T13:05:39Z) - JKOnet: Proximal Optimal Transport Modeling of Population Dynamics [69.89192135800143]
入力凸ニューラルネットワーク(ICNN)を用いて解いた(小さな)最適変位と測定値のエネルギーモデルを組み合わせたニューラルアーキテクチャを提案する。
人口動態の説明と予測のためのモデルの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-11T12:30:43Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z) - Mapping Languages and Demographics with Georeferenced Corpora [0.0]
本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。
論文では、この2つのデータセットは、非常に異なる人口を表現している。
Twitterのデータは、各国で使われている言語の在庫について、より良い予測をする。
論文 参考訳(メタデータ) (2020-04-02T04:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。