論文の概要: Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit
- arxiv url: http://arxiv.org/abs/2406.08633v1
- Date: Wed, 12 Jun 2024 20:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:07:36.919633
- Title: Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit
- Title(参考訳): 移行談話におけるコードミキシングパターンの解明:Redditにおけるオンライン会話の自動検出と分析
- Authors: Fedor Vitiugin, Sunok Lee, Henna Paakki, Anastasiia Chizhikova, Nitin Sawhney,
- Abstract要約: 本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。
本稿では,移動に関する議論において,コード混合メッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Identification of Code-mixed Texts)を提案する。
- 参考スコア(独自算出の注目度): 4.019533549688538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge in global migration patterns underscores the imperative of integrating migrants seamlessly into host communities, necessitating inclusive and trustworthy public services. Despite the Nordic countries' robust public sector infrastructure, recent immigrants often encounter barriers to accessing these services, exacerbating social disparities and eroding trust. Addressing digital inequalities and linguistic diversity is paramount in this endeavor. This paper explores the utilization of code-mixing, a communication strategy prevalent among multilingual speakers, in migration-related discourse on social media platforms such as Reddit. We present Ensemble Learning for Multilingual Identification of Code-mixed Texts (ELMICT), a novel approach designed to automatically detect code-mixed messages in migration-related discussions. Leveraging ensemble learning techniques for combining multiple tokenizers' outputs and pre-trained language models, ELMICT demonstrates high performance (with F1 more than 0.95) in identifying code-mixing across various languages and contexts, particularly in cross-lingual zero-shot conditions (with avg. F1 more than 0.70). Moreover, the utilization of ELMICT helps to analyze the prevalence of code-mixing in migration-related threads compared to other thematic categories on Reddit, shedding light on the topics of concern to migrant communities. Our findings reveal insights into the communicative strategies employed by migrants on social media platforms, offering implications for the development of inclusive digital public services and conversational systems. By addressing the research questions posed in this study, we contribute to the understanding of linguistic diversity in migration discourse and pave the way for more effective tools for building trust in multicultural societies.
- Abstract(参考訳): グローバルな移民パターンの急激な増加は、移民をホストコミュニティにシームレスに統合し、包括的で信頼できる公共サービスを必要とすることの衝動を浮き彫りにしている。
北欧諸国の堅牢な公共セクター基盤にもかかわらず、近年の移民はしばしばこれらのサービスへのアクセスの障壁に遭遇し、社会的格差を悪化させ、信頼を損なう。
この取り組みでは、デジタル不平等と言語的多様性に対処することが最重要である。
本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。
本稿では,移動に関する議論において,コードミキシングされたメッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Multilingual Identification of Code-mixed Texts)を提案する。
ELMICTは、複数のトークンの出力と事前訓練された言語モデルを組み合わせるためのアンサンブル学習技術を活用し、様々な言語や文脈、特に言語間のゼロショット条件(F1以上の0.70)におけるコードミキシングの識別において、高いパフォーマンス(F1が0.95以上)を示す。
さらに、EMMICTの利用は、Redditの他のテーマカテゴリと比較して、マイグレーション関連スレッドにおけるコードミキシングの頻度を分析し、移民コミュニティへの関心事に光を当てる助けとなる。
以上の結果から,ソーシャルメディアプラットフォーム上での移民のコミュニケーション戦略に関する知見が得られ,包括的デジタル公共サービスや会話システムの発展に寄与することが示唆された。
本研究は,移動談話における言語多様性の理解に寄与し,多文化社会における信頼構築のためのより効果的なツールの開発に寄与する。
関連論文リスト
- RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval [0.0]
インドでは、ソーシャルメディアのユーザーはローマ文字を使ってコードミキシングされた会話をすることが多い。
本稿では,コードミキシングによる会話から関連情報を抽出することの課題に焦点をあてる。
我々は、コードミキシングされた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する。
論文 参考訳(メタデータ) (2024-11-07T14:41:01Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural
Language Understanding and Question Answering [55.57776147848929]
自然言語理解のための言語横断型メタトランシュファー学習アプローチX-METRA-ADAを提案する。
我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。
提案手法は難易度の高い微調整に優れており,ほとんどの言語において両タスクの競合性能に到達していることを示す。
論文 参考訳(メタデータ) (2021-04-20T00:13:35Z) - Characterizing English Variation across Social Media Communities with
BERT [9.98785450861229]
474のRedditコミュニティで2ヶ月の英語コメントを分析した。
コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。
高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
論文 参考訳(メタデータ) (2021-02-12T23:50:57Z) - Migratable AI: Personalizing Dialog Conversations with migration context [25.029958885340058]
クラウドソーシング作業者と移行コンテキストとの対話からデータセットを収集した。
我々は,移動コンテキストと非移動コンテキストを用いて,データセットの生成モデルと情報検索モデルを訓練した。
マイグレーションデータセットは、将来の微調整可能なAIシステムのトレーニングに有用であると考えています。
論文 参考訳(メタデータ) (2020-10-22T22:23:03Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。