論文の概要: Characterizing English Variation across Social Media Communities with
BERT
- arxiv url: http://arxiv.org/abs/2102.06820v1
- Date: Fri, 12 Feb 2021 23:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:41:57.625523
- Title: Characterizing English Variation across Social Media Communities with
BERT
- Title(参考訳): BERTを用いたソーシャルメディアコミュニティ間の英語変化の特徴付け
- Authors: Li Lucy and David Bamman
- Abstract要約: 474のRedditコミュニティで2ヶ月の英語コメントを分析した。
コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。
高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
- 参考スコア(独自算出の注目度): 9.98785450861229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much previous work characterizing language variation across Internet social
groups has focused on the types of words used by these groups. We extend this
type of study by employing BERT to characterize variation in the senses of
words as well, analyzing two months of English comments in 474 Reddit
communities. The specificity of different sense clusters to a community,
combined with the specificity of a community's unique word types, is used to
identify cases where a social group's language deviates from the norm. We
validate our metrics using user-created glossaries and draw on sociolinguistic
theories to connect language variation with trends in community behavior. We
find that communities with highly distinctive language are medium-sized, and
their loyal and highly engaged users interact in dense networks.
- Abstract(参考訳): インターネット社会グループ間の言語変化を特徴付ける多くの先行研究は、これらのグループで使われる単語の種類に焦点を当ててきた。
本研究は,404 Reddit コミュニティにおける2ヶ月の英語コメントを分析し,単語感覚の変化を特徴付けるために BERT を用いて,このような研究を拡張した。
コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。
利用者が作成した用語集を用いてメトリクスを検証し,社会言語理論を用いて言語変化とコミュニティ行動の傾向を結びつける。
高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
関連論文リスト
- ValueScope: Unveiling Implicit Norms and Values via Return Potential Model of Social Interactions [47.85181608392683]
我々は、13のRedditコミュニティで言語的およびスタイリスティックな表現を識別し分析するためにValueScopeを使用します。
我々の分析は、近縁なコミュニティでさえ、非常に多様な規範を示すことを示す定量的基盤を提供する。
論文 参考訳(メタデータ) (2024-07-02T17:51:27Z) - Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit [4.019533549688538]
本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。
本稿では,移動に関する議論において,コード混合メッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Identification of Code-mixed Texts)を提案する。
論文 参考訳(メタデータ) (2024-06-12T20:30:34Z) - Echo-chambers and Idea Labs: Communication Styles on Twitter [51.13560635563004]
本稿では,ワクチン接種状況におけるTwitter(X)コミュニティのコミュニケーション形態と構造について検討する。
本研究は,ソーシャルネットワークにおけるコミュニケーションの微妙な性質に光を当てることによって,オンラインコミュニティにおける視点の多様性を理解することの重要性を強調する。
論文 参考訳(メタデータ) (2024-03-28T13:55:51Z) - Comparing Measures of Linguistic Diversity Across Social Media Language
Data and Census Data at Subnational Geographic Areas [1.0128808054306186]
本稿では,ニュージーランドのAotearoaにおけるオンライン空間(ソーシャルメディア言語データ)と実世界の空間の比較言語生態について述べる。
我々はこれらの異なる空間間の言語的多様性の尺度を比較し、ソーシャルメディアユーザーが現実世界の人口とどのように一致しているかについて議論する。
論文 参考訳(メタデータ) (2023-08-21T03:54:23Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - From words to connections: Word use similarity as an honest signal
conducive to employees' digital communication [0.0]
我々は、大企業のネットワーク内通信フォーラムで、1600人近い従業員のコミュニケーションを分析した。
単語使用の類似性は他の言語の特徴やネットワーク位置の類似性よりもはるかに多く、対話の主要因は単語使用の類似性であることがわかった。
この結果から,対象者に応じて言語を慎重に選択し,企業管理者とオンラインコミュニティ管理者の両方に実用的な意味を持つ可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-11T10:32:33Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - How individuals change language [1.2437226707039446]
我々は,多種多様な個人レベルの言語行動を含む,非常に一般的な数学的モデルを導入する。
異なる仮定の下で複数の言語における定冠詞と不定冠詞の実証的な変化の可能性を比較した。
幼児期の言語習得の誤りを主眼とする言語変化の説明は、歴史的データによって非常に弱く支持されている。
論文 参考訳(メタデータ) (2021-04-20T19:02:49Z) - The structure of online social networks modulates the rate of lexical
change [7.4037154707453965]
我々は10年間で4420のオンラインコミュニティで80万以上のネオロジズムを大規模に分析している。
本研究は,Poisson回帰分析と生存分析を用いて,コミュニティのネットワーク構造が語彙変化に重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2021-04-11T13:06:28Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。