論文の概要: Do Methods to Jailbreak and Defend LLMs Generalize Across Languages?
- arxiv url: http://arxiv.org/abs/2511.00689v2
- Date: Tue, 04 Nov 2025 15:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.895242
- Title: Do Methods to Jailbreak and Defend LLMs Generalize Across Languages?
- Title(参考訳): LLMのジェイルブレークとデフォールドメソッドは言語間を一般化するか?
- Authors: Berk Atil, Rebecca J. Passonneau, Fred Morstatter,
- Abstract要約: 本稿では,10言語にまたがるジェイルブレイクとディフェンスの体系的多言語評価について述べる。
我々は, 論理的表現に基づくジェイルブレイクと, 反逆的プロンプトに基づくロバストネスの2つのタイプを評価する。
単純な防御は効果的だが、言語とモデルに依存している。
- 参考スコア(独自算出の注目度): 11.718639745472224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) undergo safety alignment after training and tuning, yet recent work shows that safety can be bypassed through jailbreak attacks. While many jailbreaks and defenses exist, their cross-lingual generalization remains underexplored. This paper presents the first systematic multilingual evaluation of jailbreaks and defenses across ten languages -- spanning high-, medium-, and low-resource languages -- using six LLMs on HarmBench and AdvBench. We assess two jailbreak types: logical-expression-based and adversarial-prompt-based. For both types, attack success and defense robustness vary across languages: high-resource languages are safer under standard queries but more vulnerable to adversarial ones. Simple defenses can be effective, but are language- and model-dependent. These findings call for language-aware and cross-lingual safety benchmarks for LLMs.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、トレーニングとチューニング後に安全アライメントを行うが、最近の研究は、ジェイルブレイク攻撃によって安全性をバイパスできることを示している。
多くのジェイルブレイクや防衛が存在しているが、その言語間の一般化は未解明のままである。
本稿では,HarmBench と AdvBench の6つの LLM を用いて,ハイ,中,低リソース言語にまたがる10言語にわたるジェイルブレークとディフェンスの体系的多言語評価を行った。
我々は, 論理的表現に基づくジェイルブレイクと, 敵対的プロンプトに基づくジェイルブレイクの2つのタイプを評価する。
攻撃の成功と防御の堅牢性は言語によって異なり、ハイリソース言語は標準クエリではより安全だが、敵言語ではより脆弱である。
単純な防御は効果的だが、言語とモデルに依存している。
これらの結果から,LLMの言語認識および言語間安全性ベンチマークが求められた。
関連論文リスト
- Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。
これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。
我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文 参考訳(メタデータ) (2025-06-09T11:09:39Z) - Multilingual Collaborative Defense for Large Language Models [39.28665703568305]
注目すべき脆弱性の1つは、有害なクエリを稀で表現不足の言語に翻訳することで、セーフガードを回避できることである。
懸念が高まっているにもかかわらず、多言語シナリオにおけるLLMの保護に対処する研究は限られている。
本稿では,連続的かつソフトな安全プロンプトを自動で最適化する新しい学習手法であるMCDを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:47:16Z) - QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language [44.27350994698781]
安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。
LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。
メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-02-13T19:13:03Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。