論文の概要: Comparing Measures of Linguistic Diversity Across Social Media Language
Data and Census Data at Subnational Geographic Areas
- arxiv url: http://arxiv.org/abs/2308.10452v1
- Date: Mon, 21 Aug 2023 03:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:09:25.076479
- Title: Comparing Measures of Linguistic Diversity Across Social Media Language
Data and Census Data at Subnational Geographic Areas
- Title(参考訳): 国別地域におけるソーシャルメディア言語データと国勢調査データ間の言語多様性の比較
- Authors: Sidney G.-J. Wong, Jonathan Dunn and Benjamin Adams
- Abstract要約: 本稿では,ニュージーランドのAotearoaにおけるオンライン空間(ソーシャルメディア言語データ)と実世界の空間の比較言語生態について述べる。
我々はこれらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディアユーザーが現実世界の人口とどのように一致しているかについて議論する。
- 参考スコア(独自算出の注目度): 1.0128808054306186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a preliminary study on the comparative linguistic
ecology of online spaces (i.e., social media language data) and real-world
spaces in Aotearoa New Zealand (i.e., subnational administrative areas). We
compare measures of linguistic diversity between these different spaces and
discuss how social media users align with real-world populations. The results
from the current study suggests that there is potential to use online social
media language data to observe spatial and temporal changes in linguistic
diversity at subnational geographic areas; however, further work is required to
understand how well social media represents real-world behaviour.
- Abstract(参考訳): 本稿では,ニュージーランドのAotearoaにおける,オンライン空間(ソーシャルメディア言語データ)と実世界空間(サブナショナル行政区域)の比較言語生態学に関する予備的研究について述べる。
これらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディア利用者が現実世界の人口とどのように連携するかについて議論する。
本研究の結果は, オンラインソーシャルメディア言語データを用いて, 亜国の地理的領域における言語多様性の空間的・時間的変化を観察できる可能性が示唆されているが, ソーシャルメディアが実際の行動をどのように表現しているかを理解するためには, さらなる研究が必要である。
関連論文リスト
- Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文 参考訳(メタデータ) (2023-10-26T17:07:50Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Evolving linguistic divergence on polarizing social media [0.0]
会話や単語の頻度、メッセージの感情、単語や絵文字の語彙的意味論といったトピックのばらつきを定量化する。
アメリカの英語は、大きな言語コミュニティの中ではほとんど理解できないが、私たちの発見は、コミュニケーションの誤りが生じる可能性のある領域を指し示している。
論文 参考訳(メタデータ) (2023-09-04T15:21:55Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Language statistics at different spatial, temporal, and grammatical
scales [48.7576911714538]
Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。
最も大きな変化は、文法的なスケールのバリエーションによる。
文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
論文 参考訳(メタデータ) (2022-07-02T01:38:48Z) - Geolocation differences of language use in urban areas [0.0]
都市部における言語利用の空間的変動を解決するために,正確な位置情報情報を用いたTwitterデータの利用について検討した。
本研究は,小規模変動の分析により,言語使用と社会的文脈の相関関係について一意的な情報が得られることを示す。
論文 参考訳(メタデータ) (2021-08-01T19:55:45Z) - Measuring Linguistic Diversity During COVID-19 [1.0312968200748118]
本稿では、新型コロナウイルスのパンデミックによる国際旅行制限を利用して、言語多様性の尺度を校正する。
これまでの研究は、ジオレファレンスなソーシャルメディアとWebデータを用いて言語分布をマッピングしてきた。
本稿では,Herfindahl-Hirschman Indexに基づく差分差分法により,非地域住民が導入したディジタルコーパスの偏りを同定できることを示す。
論文 参考訳(メタデータ) (2021-04-03T02:09:37Z) - Characterizing English Variation across Social Media Communities with
BERT [9.98785450861229]
474のRedditコミュニティで2ヶ月の英語コメントを分析した。
コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。
高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
論文 参考訳(メタデータ) (2021-02-12T23:50:57Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。