論文の概要: Mapping Languages and Demographics with Georeferenced Corpora
- arxiv url: http://arxiv.org/abs/2004.00809v1
- Date: Thu, 2 Apr 2020 04:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:12:22.192959
- Title: Mapping Languages and Demographics with Georeferenced Corpora
- Title(参考訳): 地理参照コーパスを用いた言語と人口動態のマッピング
- Authors: Jonathan Dunn and Ben Adams
- Abstract要約: 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。
論文では、この2つのデータセットは、非常に異なる人口を表現している。
Twitterのデータは、各国で使われている言語の在庫について、より良い予測をする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates large georeferenced corpora, taken from both web-crawled
and social media sources, against ground-truth population and language-census
datasets. The goal is to determine (i) which dataset best represents population
demographics; (ii) in what parts of the world the datasets are most
representative of actual populations; and (iii) how to weight the datasets to
provide more accurate representations of underlying populations. The paper
finds that the two datasets represent very different populations and that they
correlate with actual populations with values of r=0.60 (social media) and
r=0.49 (web-crawled). Further, Twitter data makes better predictions about the
inventory of languages used in each country.
- Abstract(参考訳): 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。
ゴールは決めることです
(i)最も人口人口を表わすデータセット
(二)世界のどの地域では、データセットが実際の人口の最も代表的であるか、及び
(iii)基盤となる人口をより正確に表現するためのデータセットの重み付け方法。
この論文は、2つのデータセットが非常に異なる人口を表しており、r=0.60(社会メディア)とr=0.49(ウェブクローリング)の値で実際の人口と相関していることを示した。
さらに、Twitterのデータは各国で使われている言語の在庫についてより良い予測をする。
関連論文リスト
- Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。
バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。
我々のデータセットには800の文対と300の偏差測定が含まれている。
論文 参考訳(メタデータ) (2024-03-29T12:32:06Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - So2Sat POP -- A Curated Benchmark Data Set for Population Estimation
from Space on a Continental Scale [11.38584315242023]
欧州98都市における人口推定のための包括的データセットを提供する。
データセットは、デジタル標高モデル、地域気候帯、土地利用率、夜間光とマルチスペクトルセンチネル2画像の組み合わせ、およびOpen Street Mapイニシアチブのデータから構成される。
論文 参考訳(メタデータ) (2022-04-07T07:30:43Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。