論文の概要: Small Symbols, Big Risks: Exploring Emoticon Semantic Confusion in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07885v1
- Date: Mon, 12 Jan 2026 05:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.894481
- Title: Small Symbols, Big Risks: Exploring Emoticon Semantic Confusion in Large Language Models
- Title(参考訳): 小さなシンボルと大きなリスク:大規模言語モデルにおけるエモティコンセマンティック・コンフュージョンの探索
- Authors: Weipeng Jiang, Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Chao Shen, Yang Liu,
- Abstract要約: エモティコンは、感情的な意図を伝えるためにデジタルコミュニケーションで広く使われているが、その安全性はLarge Language Models (LLM) に大きく影響している。
我々は,LSMがASCIIをベースとしたエモティコンを誤解釈し,意図しない,あるいは破壊的な動作を行う脆弱性であるエモティコン意味混乱を同定する。
- 参考スコア(独自算出の注目度): 38.25786549326184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emoticons are widely used in digital communication to convey affective intent, yet their safety implications for Large Language Models (LLMs) remain largely unexplored. In this paper, we identify emoticon semantic confusion, a vulnerability where LLMs misinterpret ASCII-based emoticons to perform unintended and even destructive actions. To systematically study this phenomenon, we develop an automated data generation pipeline and construct a dataset containing 3,757 code-oriented test cases spanning 21 meta-scenarios, four programming languages, and varying contextual complexities. Our study on six LLMs reveals that emoticon semantic confusion is pervasive, with an average confusion ratio exceeding 38%. More critically, over 90% of confused responses yield 'silent failures', which are syntactically valid outputs but deviate from user intent, potentially leading to destructive security consequences. Furthermore, we observe that this vulnerability readily transfers to popular agent frameworks, while existing prompt-based mitigations remain largely ineffective. We call on the community to recognize this emerging vulnerability and develop effective mitigation methods to uphold the safety and reliability of the LLM system.
- Abstract(参考訳): エモティコンは、感情的な意図を伝えるためにデジタルコミュニケーションで広く使われているが、その安全性はLarge Language Models (LLM) に大きく影響している。
本稿では,LSMがASCIIに基づくエモティコンを誤解釈し,意図しない,あるいは破壊的な動作を行う脆弱性であるエモティコン意味混乱を同定する。
この現象を体系的に研究するために、自動データ生成パイプラインを開発し、21のメタシナリオ、4つのプログラミング言語、様々な文脈の複雑さにまたがる3,757のコード指向テストケースを含むデータセットを構築した。
以上の結果から,エモティコンの意味的混同が広範に存在し,平均混同率は38%を超えることが明らかとなった。
さらに重要なことは、混乱した応答の90%以上は、構文的に有効な出力であるが、ユーザ意図から逸脱し、潜在的に破壊的なセキュリティ上の結果をもたらす'サイレント障害'をもたらす。
さらに、この脆弱性は人気のあるエージェントフレームワークに容易に移行するが、既存のプロンプトベースの緩和は依然としてほとんど効果がない。
我々は,この新たな脆弱性を認識し,LLMシステムの安全性と信頼性を維持するための効果的な緩和手法を開発するようコミュニティに呼びかける。
関連論文リスト
- EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations [57.97838850473147]
Retrieval-Augmented Generation (RAG)システムは、ますます堅牢なAIの中心になっている。
今回の研究では、微妙な象徴的な摂動に対する感受性という、批判的で見落とされがちな脆弱性が明らかになりました。
一つのエモティコンをクエリに注入することで、意味的に無関係なテキストを100%検索できることを示す。
論文 参考訳(メタデータ) (2025-12-01T06:53:49Z) - Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは 明らかに良心的な言語の中に 悪意のある意図を埋め込んで 既存の安全メカニズムを回避している
本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T19:57:38Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Jailbreaking Large Language Models with Symbolic Mathematics [6.31180501514722]
AI安全性の最近の進歩は、安全でないコンテンツ生成を緩和するために、大規模な言語モデル(LLM)のトレーニングと再チームの強化につながっている。
本稿では, シンボル数学におけるLLMの高度な能力を利用して, 安全機構を回避した新しいジェイルブレイク手法であるMathPromptを紹介する。
論文 参考訳(メタデータ) (2024-09-17T03:39:45Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。