Fugu-MT 論文翻訳(概要): Mapping Languages and Demographics with Georeferenced Corpora

論文の概要: Mapping Languages and Demographics with Georeferenced Corpora

arxiv url: http://arxiv.org/abs/2004.00809v1
Date: Thu, 2 Apr 2020 04:34:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 10:12:22.192959
Title: Mapping Languages and Demographics with Georeferenced Corpora
Title（参考訳）: 地理参照コーパスを用いた言語と人口動態のマッピング
Authors: Jonathan Dunn and Ben Adams
Abstract要約: 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。論文では、この2つのデータセットは、非常に異なる人口を表現している。 Twitterのデータは、各国で使われている言語の在庫について、より良い予測をする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper evaluates large georeferenced corpora, taken from both web-crawled and social media sources, against ground-truth population and language-census datasets. The goal is to determine (i) which dataset best represents population demographics; (ii) in what parts of the world the datasets are most representative of actual populations; and (iii) how to weight the datasets to provide more accurate representations of underlying populations. The paper finds that the two datasets represent very different populations and that they correlate with actual populations with values of r=0.60 (social media) and r=0.49 (web-crawled). Further, Twitter data makes better predictions about the inventory of languages used in each country.
Abstract（参考訳）: 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。ゴールは決めることです (i)最も人口人口を表わすデータセット (二)世界のどの地域では、データセットが実際の人口の最も代表的であるか、及び (iii)基盤となる人口をより正確に表現するためのデータセットの重み付け方法。この論文は、2つのデータセットが非常に異なる人口を表しており、r=0.60(社会メディア)とr=0.49(ウェブクローリング)の値で実際の人口と相関していることを示した。さらに、Twitterのデータは各国で使われている言語の在庫についてより良い予測をする。

関連論文リスト

Data Bias in Human Mobility is a Universal Phenomenon but is Highly Location-specific [0.0]
我々は「データ生産」を研究し、個人が大きなデジタルデータセットで表現されているかどうかを定量化するとともに、そのデータ生成量の観点からどのように表現されているのかを定量化する。我々は、米国の主要10都市を対象に、匿名化されたスマートフォンから収集したGPSモビリティデータを調査し、データポイントが富よりもユーザ間で不平等に分散できることを発見した。我々は、国勢調査区域に居住する人口集団によるデータポイントの数を予測するモデルを構築し、富、民族、教育がデータ生産に与える影響を強く見出す。
論文参考訳（メタデータ） (2025-07-31T20:19:50Z)
POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering [69.52231076699756]
PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
論文参考訳（メタデータ） (2025-07-16T06:09:02Z)
Detecting Linguistic Diversity on Social Media [1.3108652488669732]
我々は、公表された国勢調査データを基礎的真実として、また、グローバル言語利用コーパスのソーシャルメディアサブコーパスを代替データソースとして使用しています。ソーシャルメディアデータセットにおける各ツイートの言語条件を特定し、2つの言語識別モデルを用いて結果を検証する。その結果,ソーシャルメディアの言語データは,ある場所の言語的プロファイルに関する空間的・時間的洞察の豊富な情報源となる可能性が示唆された。
論文参考訳（メタデータ） (2025-02-28T16:56:34Z)
Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文参考訳（メタデータ） (2024-05-30T20:10:24Z)
OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文参考訳（メタデータ） (2024-04-08T14:08:56Z)
IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。我々のデータセットには800の文対と300の偏差測定が含まれている。
論文参考訳（メタデータ） (2024-03-29T12:32:06Z)
On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T19:01:13Z)
Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文参考訳（メタデータ） (2023-11-06T19:00:05Z)
So2Sat POP -- A Curated Benchmark Data Set for Population Estimation from Space on a Continental Scale [11.38584315242023]
欧州98都市における人口推定のための包括的データセットを提供する。データセットは、デジタル標高モデル、地域気候帯、土地利用率、夜間光とマルチスペクトルセンチネル2画像の組み合わせ、およびOpen Street Mapイニシアチブのデータから構成される。
論文参考訳（メタデータ） (2022-04-07T07:30:43Z)
Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文参考訳（メタデータ） (2021-12-07T05:13:50Z)
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文参考訳（メタデータ） (2020-09-22T20:19:41Z)
REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。 1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文参考訳（メタデータ） (2020-04-16T23:54:37Z)
Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。コーパスには148の言語と158の国を表す423億語が含まれている。
論文参考訳（メタデータ） (2020-04-02T03:42:14Z)
Can x2vec Save Lives? Integrating Graph and Language Embeddings for Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文参考訳（メタデータ） (2020-01-04T20:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。