論文の概要: Detecting Linguistic Diversity on Social Media
- arxiv url: http://arxiv.org/abs/2502.21224v1
- Date: Fri, 28 Feb 2025 16:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:25.627248
- Title: Detecting Linguistic Diversity on Social Media
- Title(参考訳): ソーシャルメディアにおける言語多様性の検出
- Authors: Sidney Wong, Benjamin Adams, Jonathan Dunn,
- Abstract要約: 我々は、公表された国勢調査データを基礎的真実として、また、グローバル言語利用コーパスのソーシャルメディアサブコーパスを代替データソースとして使用しています。
ソーシャルメディアデータセットにおける各ツイートの言語条件を特定し、2つの言語識別モデルを用いて結果を検証する。
その結果,ソーシャルメディアの言語データは,ある場所の言語的プロファイルに関する空間的・時間的洞察の豊富な情報源となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.3108652488669732
- License:
- Abstract: This chapter explores the efficacy of using social media data to examine changing linguistic behaviour of a place. We focus our investigation on Aotearoa New Zealand where official statistics from the census is the only source of language use data. We use published census data as the ground truth and the social media sub-corpus from the Corpus of Global Language Use as our alternative data source. We use place as the common denominator between the two data sources. We identify the language conditions of each tweet in the social media data set and validated our results with two language identification models. We then compare levels of linguistic diversity at national, regional, and local geographies. The results suggest that social media language data has the possibility to provide a rich source of spatial and temporal insights on the linguistic profile of a place. We show that social media is sensitive to demographic and sociopolitical changes within a language and at low-level regional and local geographies.
- Abstract(参考訳): 本章では,ある場所の言語行動の変化を調べるためにソーシャルメディアデータを使用することの有効性について考察する。
我々は、国勢調査による公式統計が唯一の言語利用データ源であるニュージーランドのオタレオ(Aotearoa)に焦点をあてる。
我々は、公表された国勢調査データを基礎的真実として、また、グローバル言語利用コーパスのソーシャルメディアサブコーパスを代替データソースとして使用しています。
2つのデータソース間の共通分母としてplaceを使用します。
ソーシャルメディアデータセットにおける各ツイートの言語条件を特定し、2つの言語識別モデルを用いて結果を検証する。
次に、国、地域、地域における言語多様性のレベルを比較します。
その結果,ソーシャルメディアの言語データは,ある場所の言語的プロファイルに関する空間的・時間的洞察の豊富な情報源となる可能性が示唆された。
ソーシャルメディアは、言語内の人口・社会政治の変化や、低レベルの地域・地域地理に敏感であることを示す。
関連論文リスト
- Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文 参考訳(メタデータ) (2024-10-05T20:40:49Z) - From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets [10.264294331399434]
ヘイトスピーチデータセットは伝統的に言語によって開発されてきた。
HSデータセットにおける文化バイアスを,言語と地理の2つの関係する文化的プロキシを利用して評価する。
英語、アラビア語、スペイン語のHSデータセットは、地理的に文化的に強い偏見を示す。
論文 参考訳(メタデータ) (2024-04-27T12:10:10Z) - Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文 参考訳(メタデータ) (2023-10-26T17:07:50Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Comparing Measures of Linguistic Diversity Across Social Media Language
Data and Census Data at Subnational Geographic Areas [1.0128808054306186]
本稿では,ニュージーランドのAotearoaにおけるオンライン空間(ソーシャルメディア言語データ)と実世界の空間の比較言語生態について述べる。
我々はこれらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディアユーザーが現実世界の人口とどのように一致しているかについて議論する。
論文 参考訳(メタデータ) (2023-08-21T03:54:23Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Geolocation differences of language use in urban areas [0.0]
都市部における言語利用の空間的変動を解決するために,正確な位置情報情報を用いたTwitterデータの利用について検討した。
本研究は,小規模変動の分析により,言語使用と社会的文脈の相関関係について一意的な情報が得られることを示す。
論文 参考訳(メタデータ) (2021-08-01T19:55:45Z) - Words are the Window to the Soul: Language-based User Representations
for Fake News Detection [5.876243339384605]
ソーシャルメディア上で個人を表現できるモデルを導入する。
この課題に対して,言語に基づくユーザ表現が有用であることを示す。
論文 参考訳(メタデータ) (2020-11-14T21:14:17Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。