論文の概要: "Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs
- arxiv url: http://arxiv.org/abs/2505.14226v1
- Date: Tue, 20 May 2025 11:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.136983
- Title: "Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs
- Title(参考訳): 『Haet Bhasha aur Diskrimineshun』 コード・ミクシング・ヒングリッシュからレッド・チーム・LLMへの音声的摂動
- Authors: Darpan Aswal, Siddharth D Jaiswal,
- Abstract要約: 大規模言語モデル(LLM)はますます強力になり、日ごとに多言語とマルチモーダルの機能が改善されている。
既存のレッドチームの取り組みは、これまで、固定テンプレートベースのアタックを使用して、英語に重点を置いてきた。
本研究は,テキストおよび画像生成タスクにおいて,コードミキシングと音声の摂動をジェイルブレイクLLMに活用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly powerful, with multilingual and multimodal capabilities improving by the day. These models are being evaluated through audits, alignment studies and red-teaming efforts to expose model vulnerabilities towards generating harmful, biased and unfair content. Existing red-teaming efforts have previously focused on the English language, using fixed template-based attacks; thus, models continue to be susceptible to multilingual jailbreaking strategies, especially in the multimodal context. In this study, we introduce a novel strategy that leverages code-mixing and phonetic perturbations to jailbreak LLMs for both text and image generation tasks. We also introduce two new jailbreak strategies that show higher effectiveness than baseline strategies. Our work presents a method to effectively bypass safety filters in LLMs while maintaining interpretability by applying phonetic misspellings to sensitive words in code-mixed prompts. Our novel prompts achieve a 99% Attack Success Rate for text generation and 78% for image generation, with Attack Relevance Rate of 100% for text generation and 95% for image generation when using the phonetically perturbed code-mixed prompts. Our interpretability experiments reveal that phonetic perturbations impact word tokenization, leading to jailbreak success. Our study motivates increasing the focus towards more generalizable safety alignment for multilingual multimodal models, especially in real-world settings wherein prompts can have misspelt words.
- Abstract(参考訳): 大規模言語モデル(LLM)はますます強力になり、日ごとに多言語とマルチモーダルの機能が改善されている。
これらのモデルは、監査、アライメント研究、そして、有害で偏見のある不公平なコンテンツを生成するためのモデルの脆弱性を公開するための再チームの努力を通じて評価されている。
既存のレッドチームの取り組みは、これまでは、固定テンプレートベースのアタックを使用して、英語に重点を置いてきたため、モデルは、特にマルチモーダルなコンテキストにおいて、多言語ジェイルブレイク戦略の影響を受け続けている。
本研究では,テキストと画像生成の両タスクにおいて,コードミキシングと音声の摂動をジェイルブレイクLLMに活用する新しい手法を提案する。
ベースライン戦略よりも高い有効性を示す2つの新しいジェイルブレイク戦略も導入する。
本研究では,LLMにおける安全性フィルタを効果的に回避する手法を提案する。
本稿では,テキスト生成における99%のアタック成功率,画像生成における78%,テキスト生成におけるアタック関連率を100%,画像生成における95%を実現した。
我々の解釈可能性実験は、音声による摂動が単語のトークン化に影響を与え、ジェイルブレイクが成功することを示した。
本研究は,多言語マルチモーダルモデルにおけるより一般化可能な安全性アライメント,特に実世界におけるミスペルト語を持つプロンプトに焦点をあてることを目的としている。
関連論文リスト
- Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。