Fugu-MT 論文翻訳(概要): All Languages Matter: On the Multilingual Safety of Large Language Models

論文の概要: All Languages Matter: On the Multilingual Safety of Large Language Models

arxiv url: http://arxiv.org/abs/2310.00905v2
Date: Thu, 20 Jun 2024 14:15:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 06:37:18.933712
Title: All Languages Matter: On the Multilingual Safety of Large Language Models
Title（参考訳）: すべての言語が重要:大規模言語モデルの多言語安全について
Authors: Wenxuan Wang, Zhaopeng Tu, Chang Chen, Youliang Yuan, Jen-tse Huang, Wenxiang Jiao, Michael R. Lyu,
Abstract要約: 我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
参考スコア（独自算出の注目度）: 96.47607891042523
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety lies at the core of developing and deploying large language models (LLMs). However, previous safety benchmarks only concern the safety in one language, e.g. the majority language in the pretraining data such as English. In this work, we build the first multilingual safety benchmark for LLMs, XSafety, in response to the global deployment of LLMs in practice. XSafety covers 14 kinds of commonly used safety issues across 10 languages that span several language families. We utilize XSafety to empirically study the multilingual safety for 4 widely-used LLMs, including both close-API and open-source models. Experimental results show that all LLMs produce significantly more unsafe responses for non-English queries than English ones, indicating the necessity of developing safety alignment for non-English languages. In addition, we propose several simple and effective prompting methods to improve the multilingual safety of ChatGPT by evoking safety knowledge and improving cross-lingual generalization of safety alignment. Our prompting method can significantly reduce the ratio of unsafe responses from 19.1% to 9.7% for non-English queries. We release our data at https://github.com/Jarviswang94/Multilingual_safety_benchmark.
Abstract（参考訳）: 安全性は、大規模言語モデル(LLM)の開発とデプロイの核心にある。しかし、以前の安全ベンチマークでは、例えば英語のような事前訓練されたデータにおける多数言語のように、1つの言語の安全性のみを懸念していた。本研究では,実際にLLMのグローバル展開に対応するため,LLMのマルチ言語安全ベンチマークであるXSafetyを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。我々は XSafety を用いて,API とオープンソースモデルを含む4つの広く使用されている LLM の多言語安全性を実証的に研究している。実験結果から、全てのLLMは英語のクエリに対して、英語のクエリよりもはるかに安全でない応答を生成することが示され、非英語のクエリに対して安全アライメントを開発する必要性が示唆された。さらに,安全知識を喚起し,安全アライメントの言語間一般化を改善することにより,ChatGPTの多言語安全性を改善するための簡易かつ効果的なプロンプト手法を提案する。我々のプロンプト法は、英語以外のクエリに対して、安全でないレスポンスの比率を19.1%から9.7%に大幅に下げることができる。データはhttps://github.com/Jarviswang94/Multilingual_safety_benchmarkで公開しています。

関連論文リスト

Beyond Weaponization: NLP Security for Medium and Lower-Resourced Languages in Their Own Right [0.0]
本研究は,低級・中級言語におけるLMの安全性について検討する。これらの言語に対する単言語および多言語LMの安全性を評価するため、最大70言語に対する既存の敵攻撃を拡張した。
論文参考訳（メタデータ） (2025-07-04T10:54:04Z)
MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。 RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文参考訳（メタデータ） (2025-05-22T16:24:51Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages [27.318299273902984]
PolyGUARDは、LLM(Large Language Models)世代を保護するための、最先端の多言語安全モデルである。これまでに17言語にまたがる190万のサンプルを含む、最大規模の多言語安全訓練コーパスで訓練されている。 PolyGUARDPROMPTSは、安全ガードレールの評価のための29Kサンプルを用いた高品質な多言語ベンチマークである。
論文参考訳（メタデータ） (2025-04-06T06:09:21Z)
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps [63.10843814055688]
M-ALERTは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語で大言語モデルの安全性を評価するベンチマークである。 M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
論文参考訳（メタデータ） (2024-12-19T16:46:54Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文参考訳（メタデータ） (2024-10-23T18:27:36Z)
Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning [13.99794032197004]
大きな言語モデル(LLM)は、様々なアプリケーションのために世界中で採用され、デプロイされている。我々は,多言語コンテキストにおける安全性と汎用タスクを組み合わせた多タスク環境におけるモデルマージについて検討する。客観的なマージはデータ混合よりも有効であり, 全般的な性能と安全性は最大8%, 10%向上した。
論文参考訳（メタデータ） (2024-10-14T17:58:01Z)
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference [29.55937864144965]
この研究は,大規模言語モデル(LLM)におけるマルチターン対話コアの安全性を初めて研究したものである。私たちは14のカテゴリで1,400の質問のデータセットを作成しました。 LLaMA2-Chat-7bモデルでは56%、Mistral-7B-Instructモデルでは13.9%であった。
論文参考訳（メタデータ） (2024-06-25T15:13:02Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。 AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文参考訳（メタデータ） (2023-10-03T21:30:56Z)
SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。 11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文参考訳（メタデータ） (2023-09-13T15:56:50Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。