論文の概要: When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs' Toxicity
- arxiv url: http://arxiv.org/abs/2509.11141v1
- Date: Sun, 14 Sep 2025 07:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.941628
- Title: When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs' Toxicity
- Title(参考訳): スマイリーが敵対者になったとき: 絵文字がLSMの毒性をどう解釈するか
- Authors: Shiyao Cui, Xijia Feng, Yingkang Wang, Junxiao Yang, Zhexin Zhang, Biplab Sikdar, Hongning Wang, Han Qiu, Minlie Huang,
- Abstract要約: 絵文字は、デジタル通信において、非言語的な手がかりとして世界中で使用されている。
絵文字は大きな言語モデルにおいて有害なコンテンツ生成を引き起こす可能性があることが観察された。
- 参考スコア(独自算出の注目度): 83.94875431097908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emojis are globally used non-verbal cues in digital communication, and extensive research has examined how large language models (LLMs) understand and utilize emojis across contexts. While usually associated with friendliness or playfulness, it is observed that emojis may trigger toxic content generation in LLMs. Motivated by such a observation, we aim to investigate: (1) whether emojis can clearly enhance the toxicity generation in LLMs and (2) how to interpret this phenomenon. We begin with a comprehensive exploration of emoji-triggered LLM toxicity generation by automating the construction of prompts with emojis to subtly express toxic intent. Experiments across 5 mainstream languages on 7 famous LLMs along with jailbreak tasks demonstrate that prompts with emojis could easily induce toxicity generation. To understand this phenomenon, we conduct model-level interpretations spanning semantic cognition, sequence generation and tokenization, suggesting that emojis can act as a heterogeneous semantic channel to bypass the safety mechanisms. To pursue deeper insights, we further probe the pre-training corpus and uncover potential correlation between the emoji-related data polution with the toxicity generation behaviors. Supplementary materials provide our implementation code and data. (Warning: This paper contains potentially sensitive contents)
- Abstract(参考訳): 絵文字は、デジタルコミュニケーションにおいて非言語的手がかりとして世界中で使われており、大規模言語モデル(LLM)が文脈をまたいだ絵文字をどのように理解し活用するかを幅広く研究している。
通常、親しみや遊び心に結びついているが、絵文字はLSMの有害なコンテンツ生成を引き起こす可能性がある。
本研究の目的は,(1) 絵文字がLSMの毒性生成を顕著に促進できるかどうか,(2) 現象の解釈方法を検討することである。
我々は、絵文字を用いたプロンプトの構築を自動化し、有害な意図を微妙に表現することで、絵文字トリガーによるLSM毒性生成の包括的調査から始める。
7つの有名なLLM上の5つの主流言語にわたる実験は、ジェイルブレイクタスクとともに、絵文字によるプロンプトが容易に毒性を発生させることを示した。
この現象を理解するために, セマンティック認知, シーケンス生成, トークン化にまたがるモデルレベルの解釈を行い, 絵文字が異質なセマンティックチャネルとして機能し, 安全性のメカニズムを回避できることを示唆した。
より深い洞察を求めるため,事前学習したコーパスを探索し,絵文字関連データ汚染と毒性発生行動との潜在的な相関を明らかにする。
補助材料は実装コードとデータを提供します。
(注意:この論文には潜在的に敏感な内容が含まれている。)
関連論文リスト
- The Prosody of Emojis [73.70220975424597]
本研究は,絵文字が音声の韻律的実現にどのように影響するか,また,聴取者が韻律的手がかりを解釈して意味を回復するかを検討する。
従来の研究とは異なり、我々は、構造化されているがオープンな生産と知覚タスクを通して収集された実際の人間の音声データを分析して、韻律と絵文字を直接リンクする。
その結果、話者は絵文字の手がかりに基づいて韻律を適応し、リスナーは韻律変化のみから意図した絵文字を識別することができ、絵文字間の意味的差異は韻律の発散の増加に対応していることがわかった。
論文 参考訳(メタデータ) (2025-08-01T11:24:12Z) - The Hidden Language of Harm: Examining the Role of Emojis in Harmful Online Communication and Content Moderation [13.409540662525995]
エモジは孤立して攻撃的になることはめったにないが、象徴的連想、皮肉、文脈的誤用を通じて有害な意味を得ることができる。
ツイートの意味的意図を保ちながら有害な絵文字を置き換えるLLM方式のマルチステップモデレーションパイプラインを提案する。
分析の結果、オンラインコミュニケーションや絵文字のモデレーションに不均一な洞察を与え、悪質なタイプにまたがる異質な効果も明らかにした。
論文 参考訳(メタデータ) (2025-05-31T14:39:08Z) - Unlocking Cross-Lingual Sentiment Analysis through Emoji Interpretation: A Multimodal Generative AI Approach [8.762679920056486]
絵文字は、感情を伝える普遍的な媒体として、オンラインコミュニケーションにおいてユビキタスになりつつある。
本研究の目的は,大規模な言語モデル(LLM)を用いて,感情マーカーとして機能する絵文字の能力を検討することである。
分析の結果,LLMをベースとした絵文字表現感情の精度は81.43%であり,絵文字が普遍的な感情マーカーとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-23T03:57:45Z) - Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - Emoji-aware Co-attention Network with EmoGraph2vec Model for Sentiment
Anaylsis [9.447106020795292]
我々はEmoGraph2vecと呼ばれる絵文字表現を学習し、絵文字対応のコアテンションネットワークを設計する手法を提案する。
我々のモデルは、テキストと絵文字を組み込むコアテンション機構を設計し、圧縮と励起ブロックを畳み込みニューラルネットワークに統合する。
実験結果から,提案モデルは,ベンチマークデータセットの感情分析において,いくつかのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2021-10-27T08:01:10Z) - Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.28665205489845]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。
絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。
絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文 参考訳(メタデータ) (2021-05-03T13:35:10Z) - Are Emojis Emotional? A Study to Understand the Association between
Emojis and Emotions [37.86739837901986]
絵文字と感情の関連性について,人間同士の関連付けによる新たなデータセットを用いて検討する。
また,類似の関連がより大きな絵文字集合に対して予測できるような,既存のデータからそのような関連がどの程度推測できるかを評価する実験も行なっている。
論文 参考訳(メタデータ) (2020-05-02T04:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。