論文の概要: Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models
- arxiv url: http://arxiv.org/abs/2408.04522v1
- Date: Thu, 8 Aug 2024 15:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:18:18.464152
- Title: Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models
- Title(参考訳): 大規模言語モデルの安全性を損なうイタリアの多目的脱獄事件
- Authors: Fabio Pernisi, Dirk Hovy, Paul Röttger,
- Abstract要約: イタリアでは、安全でない動作を誘発するために、モデルに安全でない動作を誘導する多発性ジェイルブレイクの有効性について検討する。
安全でないデモがほとんどなかったとしても、モデルが安全でない振る舞いを示しており、さらに不安なことに、この傾向は、より多くのデモで急速にエスカレートしているのです。
- 参考スコア(独自算出の注目度): 23.522660090382832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As diverse linguistic communities and users adopt large language models (LLMs), assessing their safety across languages becomes critical. Despite ongoing efforts to make LLMs safe, they can still be made to behave unsafely with jailbreaking, a technique in which models are prompted to act outside their operational guidelines. Research on LLM safety and jailbreaking, however, has so far mostly focused on English, limiting our understanding of LLM safety in other languages. We contribute towards closing this gap by investigating the effectiveness of many-shot jailbreaking, where models are prompted with unsafe demonstrations to induce unsafe behaviour, in Italian. To enable our analysis, we create a new dataset of unsafe Italian question-answer pairs. With this dataset, we identify clear safety vulnerabilities in four families of open-weight LLMs. We find that the models exhibit unsafe behaviors even when prompted with few unsafe demonstrations, and -- more alarmingly -- that this tendency rapidly escalates with more demonstrations.
- Abstract(参考訳): 多様な言語コミュニティやユーザが大きな言語モデル(LLM)を採用するにつれ、言語間での安全性の評価が重要になる。
LLMを安全にするための継続的な努力にもかかわらず、彼らはまだ、モデルが運用ガイドラインの外で行動するよう促される技術であるジェイルブレイク(jailbreaking)によって安全でない行動にすることができる。
しかし、LLMの安全性と脱獄に関する研究は、これまで主に英語に焦点を当てており、他の言語でのLLMの安全性に対する理解を制限してきた。
イタリアでは、安全でない動作を誘発するために、モデルに安全でない動作を誘導する、多発ジェイルブレイクの有効性を調査することで、このギャップを埋めることに貢献している。
分析を可能にするために、安全でないイタリアの質問応答ペアの新しいデータセットを作成します。
このデータセットを用いて、オープンウェイトLLMの4つのファミリーにおいて、明確な安全性の脆弱性を特定する。
安全でないデモがほとんどなかったとしても、モデルが安全でない振る舞いを示しており、さらに不安なことに、この傾向は、より多くのデモで急速にエスカレートしているのです。
関連論文リスト
- Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。
GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文 参考訳(メタデータ) (2024-11-16T13:07:13Z) - Diversity Helps Jailbreak Large Language Models [16.34618038553998]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
LLMに以前の攻撃を逸脱して難読化するように指示するだけで、我々の手法は既存の手法よりも劇的に優れている。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。