論文の概要: Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit
- arxiv url: http://arxiv.org/abs/2406.08633v1
- Date: Wed, 12 Jun 2024 20:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:07:36.919633
- Title: Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit
- Title(参考訳): 移行談話におけるコードミキシングパターンの解明:Redditにおけるオンライン会話の自動検出と分析
- Authors: Fedor Vitiugin, Sunok Lee, Henna Paakki, Anastasiia Chizhikova, Nitin Sawhney,
- Abstract要約: 本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。
本稿では,移動に関する議論において,コード混合メッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Identification of Code-mixed Texts)を提案する。
- 参考スコア(独自算出の注目度): 4.019533549688538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge in global migration patterns underscores the imperative of integrating migrants seamlessly into host communities, necessitating inclusive and trustworthy public services. Despite the Nordic countries' robust public sector infrastructure, recent immigrants often encounter barriers to accessing these services, exacerbating social disparities and eroding trust. Addressing digital inequalities and linguistic diversity is paramount in this endeavor. This paper explores the utilization of code-mixing, a communication strategy prevalent among multilingual speakers, in migration-related discourse on social media platforms such as Reddit. We present Ensemble Learning for Multilingual Identification of Code-mixed Texts (ELMICT), a novel approach designed to automatically detect code-mixed messages in migration-related discussions. Leveraging ensemble learning techniques for combining multiple tokenizers' outputs and pre-trained language models, ELMICT demonstrates high performance (with F1 more than 0.95) in identifying code-mixing across various languages and contexts, particularly in cross-lingual zero-shot conditions (with avg. F1 more than 0.70). Moreover, the utilization of ELMICT helps to analyze the prevalence of code-mixing in migration-related threads compared to other thematic categories on Reddit, shedding light on the topics of concern to migrant communities. Our findings reveal insights into the communicative strategies employed by migrants on social media platforms, offering implications for the development of inclusive digital public services and conversational systems. By addressing the research questions posed in this study, we contribute to the understanding of linguistic diversity in migration discourse and pave the way for more effective tools for building trust in multicultural societies.
- Abstract(参考訳): グローバルな移民パターンの急激な増加は、移民をホストコミュニティにシームレスに統合し、包括的で信頼できる公共サービスを必要とすることの衝動を浮き彫りにしている。
北欧諸国の堅牢な公共セクター基盤にもかかわらず、近年の移民はしばしばこれらのサービスへのアクセスの障壁に遭遇し、社会的格差を悪化させ、信頼を損なう。
この取り組みでは、デジタル不平等と言語的多様性に対処することが最重要である。
本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。
本稿では,移動に関する議論において,コードミキシングされたメッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Multilingual Identification of Code-mixed Texts)を提案する。
ELMICTは、複数のトークンの出力と事前訓練された言語モデルを組み合わせるためのアンサンブル学習技術を活用し、様々な言語や文脈、特に言語間のゼロショット条件(F1以上の0.70)におけるコードミキシングの識別において、高いパフォーマンス(F1が0.95以上)を示す。
さらに、EMMICTの利用は、Redditの他のテーマカテゴリと比較して、マイグレーション関連スレッドにおけるコードミキシングの頻度を分析し、移民コミュニティへの関心事に光を当てる助けとなる。
以上の結果から,ソーシャルメディアプラットフォーム上での移民のコミュニケーション戦略に関する知見が得られ,包括的デジタル公共サービスや会話システムの発展に寄与することが示唆された。
本研究は,移動談話における言語多様性の理解に寄与し,多文化社会における信頼構築のためのより効果的なツールの開発に寄与する。
関連論文リスト
- A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Decoding Multilingual Topic Dynamics and Trend Identification through ARIMA Time Series Analysis on Social Networks: A Novel Data Translation Framework Enhanced by LDA/HDP Models [0.08246494848934444]
われわれは、コロナウイルスパンデミックの間、チュニジアのソーシャルネットワーク内での対話や、スポーツや政治などの有名なテーマに焦点を当てている。
まず、これらのテーマに関連するコメントの多言語コーパスを集約することから始めます。
次に、言語的差異に対処するために、ノー・イングリッシュ・トゥ・イングリッシュ・マシン翻訳手法を導入する。
論文 参考訳(メタデータ) (2024-03-18T00:01:10Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural
Language Understanding and Question Answering [55.57776147848929]
自然言語理解のための言語横断型メタトランシュファー学習アプローチX-METRA-ADAを提案する。
我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。
提案手法は難易度の高い微調整に優れており,ほとんどの言語において両タスクの競合性能に到達していることを示す。
論文 参考訳(メタデータ) (2021-04-20T00:13:35Z) - Characterizing English Variation across Social Media Communities with
BERT [9.98785450861229]
474のRedditコミュニティで2ヶ月の英語コメントを分析した。
コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。
高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
論文 参考訳(メタデータ) (2021-02-12T23:50:57Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Migratable AI: Personalizing Dialog Conversations with migration context [25.029958885340058]
クラウドソーシング作業者と移行コンテキストとの対話からデータセットを収集した。
我々は,移動コンテキストと非移動コンテキストを用いて,データセットの生成モデルと情報検索モデルを訓練した。
マイグレーションデータセットは、将来の微調整可能なAIシステムのトレーニングに有用であると考えています。
論文 参考訳(メタデータ) (2020-10-22T22:23:03Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。