論文の概要: Measuring Linguistic Diversity During COVID-19
- arxiv url: http://arxiv.org/abs/2104.01290v1
- Date: Sat, 3 Apr 2021 02:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 03:05:49.800787
- Title: Measuring Linguistic Diversity During COVID-19
- Title(参考訳): 新型コロナウイルスによる言語多様性の測定
- Authors: Jonathan Dunn and Tom Coupe and Benjamin Adams
- Abstract要約: 本稿では、新型コロナウイルスのパンデミックによる国際旅行制限を利用して、言語多様性の尺度を校正する。
これまでの研究は、ジオレファレンスなソーシャルメディアとWebデータを用いて言語分布をマッピングしてきた。
本稿では,Herfindahl-Hirschman Indexに基づく差分差分法により,非地域住民が導入したディジタルコーパスの偏りを同定できることを示す。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational measures of linguistic diversity help us understand the
linguistic landscape using digital language data. The contribution of this
paper is to calibrate measures of linguistic diversity using restrictions on
international travel resulting from the COVID-19 pandemic. Previous work has
mapped the distribution of languages using geo-referenced social media and web
data. The goal, however, has been to describe these corpora themselves rather
than to make inferences about underlying populations. This paper shows that a
difference-in-differences method based on the Herfindahl-Hirschman Index can
identify the bias in digital corpora that is introduced by non-local
populations. These methods tell us where significant changes have taken place
and whether this leads to increased or decreased diversity. This is an
important step in aligning digital corpora like social media with the
real-world populations that have produced them.
- Abstract(参考訳): 言語多様性の計算指標は、デジタル言語データを用いて言語景観を理解するのに役立つ。
本論文は、新型コロナウイルスのパンデミックによる国際旅行制限を利用して、言語多様性の指標を校正することを目的とする。
これまでの研究は、ジオレファレンスなソーシャルメディアとWebデータを用いて言語分布をマッピングしてきた。
しかし、その目標は、根底にある個体群を推測するのではなく、これらのコーパス自身を説明することである。
本稿では,Herfindahl-Hirschman Indexに基づく差分差分法により,非地域住民が導入するディジタルコーパスの偏りを同定できることを示す。
これらの手法は、重要な変化がどこで起きたか、それが多様性の増大または減少につながるかを示す。
これはソーシャルメディアのようなデジタルコーポラを、それらを生んだ現実世界の人口と結びつける上で重要なステップだ。
関連論文リスト
- Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。
しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。
本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文 参考訳(メタデータ) (2024-06-25T15:41:07Z) - Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文 参考訳(メタデータ) (2023-10-26T17:07:50Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Comparing Measures of Linguistic Diversity Across Social Media Language
Data and Census Data at Subnational Geographic Areas [1.0128808054306186]
本稿では,ニュージーランドのAotearoaにおけるオンライン空間(ソーシャルメディア言語データ)と実世界の空間の比較言語生態について述べる。
我々はこれらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディアユーザーが現実世界の人口とどのように一致しているかについて議論する。
論文 参考訳(メタデータ) (2023-08-21T03:54:23Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Language statistics at different spatial, temporal, and grammatical
scales [48.7576911714538]
Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。
最も大きな変化は、文法的なスケールのバリエーションによる。
文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
論文 参考訳(メタデータ) (2022-07-02T01:38:48Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。