論文の概要: LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
- arxiv url: http://arxiv.org/abs/2412.15035v1
- Date: Thu, 19 Dec 2024 16:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:55.995117
- Title: LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
- Title(参考訳): LLM:M-ALERTが言語横断の安全装置を発見
- Authors: Felix Friedrich, Simone Tedeschi, Patrick Schramowski, Manuel Brack, Roberto Navigli, Huu Nguyen, Bo Li, Kristian Kersting,
- Abstract要約: M-ALERTは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語で大言語モデルの安全性を評価するベンチマークである。
M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
- 参考スコア(独自算出の注目度): 63.10843814055688
- License:
- Abstract: Building safe Large Language Models (LLMs) across multiple languages is essential in ensuring both safe access and linguistic diversity. To this end, we introduce M-ALERT, a multilingual benchmark that evaluates the safety of LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT includes 15k high-quality prompts per language, totaling 75k, following the detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs highlight the importance of language-specific safety analysis, revealing that models often exhibit significant inconsistencies in safety across languages and categories. For instance, Llama3.2 shows high unsafety in the category crime_tax for Italian but remains safe in other languages. Similar differences can be observed across all models. In contrast, certain categories, such as substance_cannabis and crime_propaganda, consistently trigger unsafe responses across models and languages. These findings underscore the need for robust multilingual safety practices in LLMs to ensure safe and responsible usage across diverse user communities.
- Abstract(参考訳): 複数の言語にまたがる安全な大規模言語モデル(LLM)の構築は、安全なアクセスと言語の多様性を保証する上で不可欠である。
この目的のために、多言語ベンチマークであるM-ALERTを導入し、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語でLLMの安全性を評価する。
M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
現状の10のLCMに関する広範な実験では、言語固有の安全性分析の重要性が強調され、モデルが言語やカテゴリ間での安全性に重大な不整合を示すことがしばしば明らかになった。
例えば、Llama3.2は、イタリア語の「犯罪・税」というカテゴリーでは安全でないが、他の言語では安全である。
同様の違いはすべてのモデルで観測できる。
これとは対照的に、 substance_cannabis や crime_propaganda のような特定のカテゴリは、モデルや言語間の安全でない応答を一貫して引き起こす。
これらの知見は、多様なユーザコミュニティで安全かつ責任ある使用を確実にするために、LSMにおける堅牢な多言語安全プラクティスの必要性を浮き彫りにしている。
関連論文リスト
- Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
本研究は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語の安全性ベンチマーク( ChineseSafe)を提案する。
中国のインターネットコンテンツモデレーションの規制に合わせるために、ChinaSafeには4つのクラスと10のサブクラスにわたる205,034のサンプルが含まれています。
その結果、多くのLCMが特定の種類の安全問題に対する脆弱性を示しており、中国の法的なリスクにつながっていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models [23.522660090382832]
イタリアでは、安全でない動作を誘発するために、モデルに安全でない動作を誘導する多発性ジェイルブレイクの有効性について検討する。
安全でないデモがほとんどなかったとしても、モデルが安全でない振る舞いを示しており、さらに不安なことに、この傾向は、より多くのデモで急速にエスカレートしているのです。
論文 参考訳(メタデータ) (2024-08-08T15:24:03Z) - Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文 参考訳(メタデータ) (2024-07-10T03:26:15Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。