Fugu-MT 論文翻訳(概要): Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit

論文の概要: Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit

arxiv url: http://arxiv.org/abs/2406.08633v1
Date: Wed, 12 Jun 2024 20:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 22:07:36.919633
Title: Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit
Title（参考訳）: 移行談話におけるコードミキシングパターンの解明:Redditにおけるオンライン会話の自動検出と分析
Authors: Fedor Vitiugin, Sunok Lee, Henna Paakki, Anastasiia Chizhikova, Nitin Sawhney,
Abstract要約: 本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。本稿では,移動に関する議論において,コード混合メッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Identification of Code-mixed Texts)を提案する。
参考スコア（独自算出の注目度）: 4.019533549688538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The surge in global migration patterns underscores the imperative of integrating migrants seamlessly into host communities, necessitating inclusive and trustworthy public services. Despite the Nordic countries' robust public sector infrastructure, recent immigrants often encounter barriers to accessing these services, exacerbating social disparities and eroding trust. Addressing digital inequalities and linguistic diversity is paramount in this endeavor. This paper explores the utilization of code-mixing, a communication strategy prevalent among multilingual speakers, in migration-related discourse on social media platforms such as Reddit. We present Ensemble Learning for Multilingual Identification of Code-mixed Texts (ELMICT), a novel approach designed to automatically detect code-mixed messages in migration-related discussions. Leveraging ensemble learning techniques for combining multiple tokenizers' outputs and pre-trained language models, ELMICT demonstrates high performance (with F1 more than 0.95) in identifying code-mixing across various languages and contexts, particularly in cross-lingual zero-shot conditions (with avg. F1 more than 0.70). Moreover, the utilization of ELMICT helps to analyze the prevalence of code-mixing in migration-related threads compared to other thematic categories on Reddit, shedding light on the topics of concern to migrant communities. Our findings reveal insights into the communicative strategies employed by migrants on social media platforms, offering implications for the development of inclusive digital public services and conversational systems. By addressing the research questions posed in this study, we contribute to the understanding of linguistic diversity in migration discourse and pave the way for more effective tools for building trust in multicultural societies.
Abstract（参考訳）: グローバルな移民パターンの急激な増加は、移民をホストコミュニティにシームレスに統合し、包括的で信頼できる公共サービスを必要とすることの衝動を浮き彫りにしている。北欧諸国の堅牢な公共セクター基盤にもかかわらず、近年の移民はしばしばこれらのサービスへのアクセスの障壁に遭遇し、社会的格差を悪化させ、信頼を損なう。この取り組みでは、デジタル不平等と言語的多様性に対処することが最重要である。本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。本稿では,移動に関する議論において,コードミキシングされたメッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Multilingual Identification of Code-mixed Texts)を提案する。 ELMICTは、複数のトークンの出力と事前訓練された言語モデルを組み合わせるためのアンサンブル学習技術を活用し、様々な言語や文脈、特に言語間のゼロショット条件(F1以上の0.70)におけるコードミキシングの識別において、高いパフォーマンス(F1が0.95以上)を示す。さらに、EMMICTの利用は、Redditの他のテーマカテゴリと比較して、マイグレーション関連スレッドにおけるコードミキシングの頻度を分析し、移民コミュニティへの関心事に光を当てる助けとなる。以上の結果から,ソーシャルメディアプラットフォーム上での移民のコミュニケーション戦略に関する知見が得られ,包括的デジタル公共サービスや会話システムの発展に寄与することが示唆された。本研究は,移動談話における言語多様性の理解に寄与し,多文化社会における信頼構築のためのより効果的なツールの開発に寄与する。

関連論文リスト

When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文参考訳（メタデータ） (2026-01-30T11:23:01Z)
MASim: Multilingual Agent-Based Simulation for Social Science [68.04129327237963]
マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
論文参考訳（メタデータ） (2025-12-08T06:12:48Z)
Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文参考訳（メタデータ） (2025-09-18T08:14:34Z)
Disentangling Codemixing in Chats: The NUS ABC Codemixed Corpus [11.518751071307745]
コードミキシングは、単一の言説の中で複数の言語からの言語要素をシームレスに統合する。著者ラベル付きで、人間の会話や関係をモデル化するのに適した公開コーパスが不足している。本研究では,厳格なプライバシと倫理基準を維持しつつ,文脈におけるコードミキシングを理解するためのラベル付き汎用コーパスについて紹介する。
論文参考訳（メタデータ） (2025-05-31T01:09:04Z)
SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。この言語現象は、自動音声認識(ASR)システムに課題をもたらす。 textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文参考訳（メタデータ） (2025-05-30T05:54:46Z)
Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文参考訳（メタデータ） (2025-04-23T11:29:10Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval [0.0]
インドでは、ソーシャルメディアのユーザーはローマ文字を使ってコードミキシングされた会話をすることが多い。本稿では,コードミキシングによる会話から関連情報を抽出することの課題に焦点をあてる。我々は、コードミキシングされた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する。
論文参考訳（メタデータ） (2024-11-07T14:41:01Z)
Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳（メタデータ） (2024-07-02T14:02:53Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
Countering Malicious Content Moderation Evasion in Online Social Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文参考訳（メタデータ） (2022-12-27T16:08:49Z)
Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文参考訳（メタデータ） (2022-05-23T09:25:43Z)
A Comprehensive Understanding of Code-mixed Language Semantics using Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文参考訳（メタデータ） (2022-04-27T07:50:18Z)
Challenges and Considerations with Code-Mixed NLP for Multilingual Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文参考訳（メタデータ） (2021-06-15T00:53:55Z)
X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural Language Understanding and Question Answering [55.57776147848929]
自然言語理解のための言語横断型メタトランシュファー学習アプローチX-METRA-ADAを提案する。我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。提案手法は難易度の高い微調整に優れており,ほとんどの言語において両タスクの競合性能に到達していることを示す。
論文参考訳（メタデータ） (2021-04-20T00:13:35Z)
Characterizing English Variation across Social Media Communities with BERT [9.98785450861229]
474のRedditコミュニティで2ヶ月の英語コメントを分析した。コミュニティに異なる感覚のクラスタの特異性は、コミュニティのユニークな単語タイプの特異性と組み合わさって、社会グループの言語が規範から逸脱するケースを特定するために使用されます。高度に識別された言語を持つコミュニティは中規模であり、忠実で熱心なユーザは密集したネットワークで交流する。
論文参考訳（メタデータ） (2021-02-12T23:50:57Z)
Migratable AI: Personalizing Dialog Conversations with migration context [25.029958885340058]
クラウドソーシング作業者と移行コンテキストとの対話からデータセットを収集した。我々は,移動コンテキストと非移動コンテキストを用いて,データセットの生成モデルと情報検索モデルを訓練した。マイグレーションデータセットは、将来の微調整可能なAIシステムのトレーニングに有用であると考えています。
論文参考訳（メタデータ） (2020-10-22T22:23:03Z)
On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文参考訳（メタデータ） (2020-10-06T20:48:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。