論文の概要: Analyzing Islamophobic Discourse Using Semi-Coded Terms and LLMs
- arxiv url: http://arxiv.org/abs/2503.18273v1
- Date: Mon, 24 Mar 2025 01:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:44.733310
- Title: Analyzing Islamophobic Discourse Using Semi-Coded Terms and LLMs
- Title(参考訳): 半符号項とLLMを用いたイスラム哲学的談話の分析
- Authors: Raza Ul Mustafa, Roi Dupart, Gabrielle Smith, Noman Ashraf, Nathalie Japkowicz,
- Abstract要約: 本稿では,過激主義の社会プラットフォームに浮かぶイスラム教の専門用語(ムズラト,ピスラム,泥スリム,モハメダン,ムジー)を大規模に分析する。
Google Perspective APIを使えば、他の種類のヘイトスピーチに比べて、イスラム主義的なテキストの方が有害であることもわかりました。
- 参考スコア(独自算出の注目度): 2.5081530863229307
- License:
- Abstract: Islamophobia started evolving into a global phenomenon by attracting followers across the globe, particularly in Western societies. Thus, understanding Islamophobia's global spread and online dissemination is crucial. This paper performs a large-scale analysis of specialized, semi-coded Islamophobic terms such as (muzrat, pislam, mudslime, mohammedan, muzzies) floated on extremist social platforms, i.e., 4Chan, Gab, Telegram, etc. First, we use large language models (LLMs) to show their ability to understand these terms. Second, using Google Perspective API, we also find that Islamophobic text is more toxic compared to other kinds of hate speech. Finally, we use BERT topic modeling approach to extract different topics and Islamophobic discourse on these social platforms. Our findings indicate that LLMs understand these Out-Of-Vocabulary (OOV) slurs; however, measures are still required to control such discourse. Our topic modeling also indicates that Islamophobic text is found across various political, conspiratorial, and far-right movements and is particularly directed against Muslim immigrants. Taken altogether, we performed the first study on Islamophobic semi-coded terms and shed a global light on Islamophobia.
- Abstract(参考訳): イスラム恐怖症は、特に西洋社会において、世界中の信者を惹きつけ、グローバルな現象へと発展し始めた。
したがって、イスラム哲学の世界的な普及とオンラインの普及を理解することが重要である。
本稿では,過激派社会プラットフォーム(4Chan,Gab,Telegramなど)に浮かぶ「ムズラト」,「ピスラム」,「泥スリム」,「モハメダン」,「モハメダン」,「モザイク」など,専門的で半コード化されたイスラム教の用語を大規模に分析する。
まず、これらの用語を理解する能力を示すために、大きな言語モデル(LLM)を使用します。
第二に、Google Perspective APIを使用することで、他の種類のヘイトスピーチと比べて、イスラム嫌悪的なテキストが有害であることもわかりました。
最後に、BERTトピックモデリングアプローチを用いて、これらのソーシャルプラットフォーム上で異なるトピックやイスラム主義的な言説を抽出する。
以上の結果から, LLM はこれらの外語彙スラリー(OOV)を理解しているが, その制御には依然として対策が必要であることが示唆された。
我々のトピックモデリングはまた、イスラム主義のテクストが様々な政治的、陰謀的、極右運動にまたがっており、特にムスリム移民に対して向けられていることを示唆している。
総じて、私たちはイスラム教の半コード項についての最初の研究を行い、イスラムの半コード項について国際的に光を当てた。
関連論文リスト
- HP-BERT: A framework for longitudinal study of Hinduphobia on social media via LLMs [1.9376226959814953]
新型コロナウイルスのパンデミックの前後におけるX(Twitter)上でのヒンドゥー恐怖症を経時的に分析する悪用検知・感情分析フレームワークを提案する。
この枠組みはヒンドゥー恐怖の言説の流行と強さを評価し、軽蔑的ジョークや人種差別的発言といった要素を捉えている。
調査にはオーストラリア、ブラジル、インド、インドネシア、日本、英国を含む6カ国のツイートが2740万件含まれている。
論文 参考訳(メタデータ) (2025-01-07T23:22:05Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - MIMIC: Multimodal Islamophobic Meme Identification and Classification [1.2647816797166167]
反イスラムヘイトスピーチは、文脈に依存した、修辞的なメッセージによって特徴付けられるミームの中に現れた。
この研究は、新しいデータセットを提示し、ミーム内の反イスラム憎悪を特定するために特別に調整されたViLT(Vision-and-Language Transformer)に基づく分類器を提案する。
論文 参考訳(メタデータ) (2024-12-01T05:44:01Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - Divine LLaMAs: Bias, Stereotypes, Stigmatization, and Emotion Representation of Religion in Large Language Models [19.54202714712677]
社会文化的体系としての宗教は、その信者に対する信念と価値観の集合を規定している。
私たちの価値観についてほとんど言及していないジェンダーとは違い、宗教はその信条と信条のセットを定めている。
アメリカやヨーロッパ諸国の主要な宗教は、よりニュアンスで表現されている。
ヒンドゥー教や仏教のような東方宗教は強くステレオタイプ化されている。
論文 参考訳(メタデータ) (2024-07-09T14:45:15Z) - Cordyceps@LT-EDI: Patching Language-Specific Homophobia/Transphobia
Classifiers with a Multilingual Understanding [0.0]
ホモフォビアおよびトランスフォビアヘイトスピーチ検出のための多言語(M-L)と言語固有の(L-S)アプローチを提案する。
M-Lモデルは、特定の言語では一般的でない、あるいは欠落している単語、フレーズ、概念をキャッチするために必要である。
L-Sモデルは、通常特定の言語で書くユーザーの文化的・言語的文脈を理解するのに適している。
論文 参考訳(メタデータ) (2023-09-24T06:37:54Z) - From Dogwhistles to Bullhorns: Unveiling Coded Rhetoric with Language
Models [73.25963871034858]
本研究は,イヌヒストルの大規模数値計算による研究である。
我々は、ドッグウィストルの類型学を開発し、300以上のドッグウィストルの過去最大の用語集をキュレートし、歴史的なアメリカの政治家の演説でそれらの使用法を分析した。
犬毛を含む有害なコンテンツは毒性の検出を回避し,このような符号化された言語のオンラインリスクを強調している。
論文 参考訳(メタデータ) (2023-05-26T18:00:57Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Understanding and Detecting Hateful Content using Contrastive Learning [0.9391375268580806]
この研究は、ウェブ上のヘイトフルコンテンツを検出し、理解するための研究に貢献する。
我々は、反ユダヤ主義的・イスラム主義的な憎悪的な文章句の集合を識別する方法論を考案した。
次に、OpenAIのCLIPを使用して、アンチセミティック/Islamophicのテキストフレーズと非常によく似た画像を識別する。
論文 参考訳(メタデータ) (2022-01-21T18:22:29Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。