論文の概要: Mapping Languages and Demographics with Georeferenced Corpora
- arxiv url: http://arxiv.org/abs/2004.00809v1
- Date: Thu, 2 Apr 2020 04:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:12:22.192959
- Title: Mapping Languages and Demographics with Georeferenced Corpora
- Title(参考訳): 地理参照コーパスを用いた言語と人口動態のマッピング
- Authors: Jonathan Dunn and Ben Adams
- Abstract要約: 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。
論文では、この2つのデータセットは、非常に異なる人口を表現している。
Twitterのデータは、各国で使われている言語の在庫について、より良い予測をする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates large georeferenced corpora, taken from both web-crawled
and social media sources, against ground-truth population and language-census
datasets. The goal is to determine (i) which dataset best represents population
demographics; (ii) in what parts of the world the datasets are most
representative of actual populations; and (iii) how to weight the datasets to
provide more accurate representations of underlying populations. The paper
finds that the two datasets represent very different populations and that they
correlate with actual populations with values of r=0.60 (social media) and
r=0.49 (web-crawled). Further, Twitter data makes better predictions about the
inventory of languages used in each country.
- Abstract(参考訳): 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。
ゴールは決めることです
(i)最も人口人口を表わすデータセット
(二)世界のどの地域では、データセットが実際の人口の最も代表的であるか、及び
(iii)基盤となる人口をより正確に表現するためのデータセットの重み付け方法。
この論文は、2つのデータセットが非常に異なる人口を表しており、r=0.60(社会メディア)とr=0.49(ウェブクローリング)の値で実際の人口と相関していることを示した。
さらに、Twitterのデータは各国で使われている言語の在庫についてより良い予測をする。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - GeoDE: a Geographically Diverse Evaluation Dataset for Object
Recognition [31.194474203667042]
GeoDEは地理的に多様なデータセットであり、40のクラスと6つの世界領域から61,940の画像がある。
完全なデータセットとコードはhttps://geodiverse-data-collection.cs.princeton.edu/で公開しています。
論文 参考訳(メタデータ) (2023-01-05T18:21:50Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - So2Sat POP -- A Curated Benchmark Data Set for Population Estimation
from Space on a Continental Scale [11.38584315242023]
欧州98都市における人口推定のための包括的データセットを提供する。
データセットは、デジタル標高モデル、地域気候帯、土地利用率、夜間光とマルチスペクトルセンチネル2画像の組み合わせ、およびOpen Street Mapイニシアチブのデータから構成される。
論文 参考訳(メタデータ) (2022-04-07T07:30:43Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。