論文の概要: Detecting Hope, Hate, and Emotion in Arabic Textual Speech and Multi-modal Memes Using Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15810v1
- Date: Fri, 15 Aug 2025 08:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.078409
- Title: Detecting Hope, Hate, and Emotion in Arabic Textual Speech and Multi-modal Memes Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたアラビア語テキスト・マルチモーダル・ミームにおける希望・憎悪・感情の検出
- Authors: Nouar AlDahoul, Yasir Zaki,
- Abstract要約: 本稿では,このようなコンテンツの中で,希望,憎しみ,攻撃的言語,感情表現を効果的に識別する大規模言語モデルの可能性について検討する。
基礎LLM, 微調整LDM, 事前学習型埋め込みモデルの性能評価を行った。
その結果, GPT-4o-mini, fine-tuned with Arabic textual speech, Gemini Flash 2.5, fine-tuned with Arabic memesなどのLCMの能力が明らかにされた。
- 参考スコア(独自算出の注目度): 1.3521447196536418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of social media and online communication platforms has led to the spread of Arabic textual posts and memes as a key form of digital expression. While these contents can be humorous and informative, they are also increasingly being used to spread offensive language and hate speech. Consequently, there is a growing demand for precise analysis of content in Arabic text and memes. This paper explores the potential of large language models to effectively identify hope, hate speech, offensive language, and emotional expressions within such content. We evaluate the performance of base LLMs, fine-tuned LLMs, and pre-trained embedding models. The evaluation is conducted using a dataset of Arabic textual speech and memes proposed in the ArabicNLP MAHED 2025 challenge. The results underscore the capacity of LLMs such as GPT-4o-mini, fine-tuned with Arabic textual speech, and Gemini Flash 2.5, fine-tuned with Arabic memes, to deliver the superior performance. They achieve up to 72.1%, 57.8%, and 79.6% macro F1 scores for tasks 1, 2, and 3, respectively, and secure first place overall in the Mahed 2025 challenge. The proposed solutions offer a more nuanced understanding of both text and memes for accurate and efficient Arabic content moderation systems.
- Abstract(参考訳): ソーシャルメディアやオンラインコミュニケーションプラットフォームが台頭し、アラビア語のテキスト投稿やミームがデジタル表現の重要な形態として広まった。
これらの内容はユーモラスで情報的だが、攻撃的な言葉や憎しみの言葉を広めるのにもますます使われている。
その結果、アラビア文字やミームのコンテンツを正確に分析する需要が高まっている。
本稿では,このようなコンテンツの中で,希望,憎しみ,攻撃的言語,感情表現を効果的に識別する大規模言語モデルの可能性について検討する。
基礎LLM, 微調整LDM, 事前学習型埋め込みモデルの性能評価を行った。
アラビアNLP MAHED 2025チャレンジで提案したアラビア文字音声とミームのデータセットを用いて評価を行った。
その結果、GPT-4o-mini、アラビア語のテキスト音声で微調整されたGemini Flash 2.5、アラビアのミームで微調整されたGemini Flash 2.5といったLCMの能力が向上した。
72.1%、57.8%、79.6%のマクロF1スコアをそれぞれ1, 2, 3で達成し、Mahed 2025チャレンジで総合1位を獲得した。
提案したソリューションは、正確で効率的なアラビアコンテンツモデレーションシステムのために、テキストとミームの両方をよりきめ細やかな理解を提供する。
関連論文リスト
- EmoHopeSpeech: An Annotated Dataset of Emotions and Hope Speech in English and Arabic [0.021665899581403608]
本研究では,アラビア語の23,456項目と英語の10,036項目からなるバイリンガルデータセットを提案する。
このデータセットは、感情の強さ、複雑さ、原因を捉える包括的なアノテーションと、希望のスピーチのための詳細な分類とサブカテゴリを提供する。
論文 参考訳(メタデータ) (2025-05-17T11:21:58Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - ArMeme: Propagandistic Content in Arabic Memes [9.48177009736915]
我々は,プロパガンダ的コンテンツの手動アノテーションを用いたアラビア・ミーム・データセットを開発した。
我々は,その検出のための計算ツールの開発を目的とした包括的解析を行う。
論文 参考訳(メタデータ) (2024-06-06T09:56:49Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Multimodal Hate Speech Detection from Bengali Memes and Texts [0.6709991492637819]
本稿では,マルチモーダルなベンガルミームとテキストからのヘイトスピーチ検出について述べる。
我々は、ヘイトスピーチ検出のためのテキスト情報と視覚情報を分析するために、複数のニューラルネットワークを訓練する。
本研究は,ベンガル語におけるヘイトスピーチ検出にはミームが適度に有用であることが示唆する。
論文 参考訳(メタデータ) (2022-04-19T11:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。