論文の概要: All Languages Matter: On the Multilingual Safety of Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.00905v1
- Date: Mon, 2 Oct 2023 05:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:23:23.283912
- Title: All Languages Matter: On the Multilingual Safety of Large Language
Models
- Title(参考訳): すべての言語が重要:大規模言語モデルの多言語安全について
- Authors: Wenxuan Wang, Zhaopeng Tu, Chang Chen, Youliang Yuan, Jen-tse Huang,
Wenxiang Jiao, Michael R. Lyu
- Abstract要約: 我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 101.31394141244294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety lies at the core of developing and deploying large language models
(LLMs). However, previous safety benchmarks only concern the safety in one
language, e.g. the majority language in the pretraining data such as English.
In this work, we build the first multilingual safety benchmark for LLMs,
XSafety, in response to the global deployment of LLMs in practice. XSafety
covers 14 kinds of commonly used safety issues across 10 languages that span
several language families. We utilize XSafety to empirically study the
multilingual safety for 4 widely-used LLMs, including both close-API and
open-source models. Experimental results show that all LLMs produce
significantly more unsafe responses for non-English queries than English ones,
indicating the necessity of developing safety alignment for non-English
languages. In addition, we propose several simple and effective prompting
methods to improve the multilingual safety of ChatGPT by evoking safety
knowledge and improving cross-lingual generalization of safety alignment. Our
prompting method can significantly reduce the ratio of unsafe responses from
19.1% to 9.7% for non-English queries. We release our data at
https://github.com/Jarviswang94/Multilingual_safety_benchmark.
- Abstract(参考訳): 安全性は、大規模言語モデル(LLM)の開発とデプロイの核心にある。
しかし、以前の安全性ベンチマークでは、英語のような事前学習データの多数言語など、1つの言語の安全性にのみ関心が持たれていた。
本研究では,実際にLLMのグローバル展開に対応するため,LLMのマルチ言語安全ベンチマークであるXSafetyを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
我々は XSafety を用いて,API とオープンソースモデルを含む4つの広く使用されている LLM の多言語安全性を実証的に研究している。
実験の結果、全てのllmは英語よりも非英語クエリに対して有意に安全でない応答を示し、非英語言語に安全アライメントを開発する必要性を示した。
さらに,安全知識を喚起し,安全アライメントの言語間一般化を改善することにより,ChatGPTの多言語安全性を改善するための簡易かつ効果的なプロンプト手法を提案する。
提案手法は,非英語クエリに対する安全でない応答の割合を19.1%から9.7%に有意に低減する。
私たちはデータをhttps://github.com/jarviswang94/multilingual_safety_benchmarkでリリースします。
関連論文リスト
- Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning [13.99794032197004]
大きな言語モデル(LLM)は、様々なアプリケーションのために世界中で採用され、デプロイされている。
我々は,多言語コンテキストにおける安全性と汎用タスクを組み合わせた多タスク環境におけるモデルマージについて検討する。
客観的なマージはデータ混合よりも有効であり, 全般的な性能と安全性は最大8%, 10%向上した。
論文 参考訳(メタデータ) (2024-10-14T17:58:01Z) - CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference [29.55937864144965]
この研究は,大規模言語モデル(LLM)におけるマルチターン対話コアの安全性を初めて研究したものである。
私たちは14のカテゴリで1,400の質問のデータセットを作成しました。
LLaMA2-Chat-7bモデルでは56%、Mistral-7B-Instructモデルでは13.9%であった。
論文 参考訳(メタデータ) (2024-06-25T15:13:02Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。