論文の概要: Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture
- arxiv url: http://arxiv.org/abs/2407.07342v1
- Date: Wed, 10 Jul 2024 03:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:01:18.548740
- Title: Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture
- Title(参考訳): 多言語ブレンディング:LLMの言語混合による安全性アライメント評価
- Authors: Jiayang Song, Yuheng Huang, Zhehua Zhou, Lei Ma,
- Abstract要約: 我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
- 参考スコア(独自算出の注目度): 6.17896401271963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As safety remains a crucial concern throughout the development lifecycle of Large Language Models (LLMs), researchers and industrial practitioners have increasingly focused on safeguarding and aligning LLM behaviors with human preferences and ethical standards. LLMs, trained on extensive multilingual corpora, exhibit powerful generalization abilities across diverse languages and domains. However, current safety alignment practices predominantly focus on single-language scenarios, which leaves their effectiveness in complex multilingual contexts, especially for those complex mixed-language formats, largely unexplored. In this study, we introduce Multilingual Blending, a mixed-language query-response scheme designed to evaluate the safety alignment of various state-of-the-art LLMs (e.g., GPT-4o, GPT-3.5, Llama3) under sophisticated, multilingual conditions. We further investigate language patterns such as language availability, morphology, and language family that could impact the effectiveness of Multilingual Blending in compromising the safeguards of LLMs. Our experimental results show that, without meticulously crafted prompt templates, Multilingual Blending significantly amplifies the detriment of malicious queries, leading to dramatically increased bypass rates in LLM safety alignment (67.23% on GPT-3.5 and 40.34% on GPT-4o), far exceeding those of single-language baselines. Moreover, the performance of Multilingual Blending varies notably based on intrinsic linguistic properties, with languages of different morphology and from diverse families being more prone to evading safety alignments. These findings underscore the necessity of evaluating LLMs and developing corresponding safety alignment strategies in a complex, multilingual context to align with their superior cross-language generalization capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発ライフサイクルを通じて、安全は重要な関心事であり続けており、研究者や工業従事者は、LLMの行動と人間の嗜好と倫理的基準の保護と整合性に注目している。
LLMは多言語コーパスに基づいて訓練され、多様な言語やドメインにまたがる強力な一般化能力を示す。
しかし、現在の安全アライメントのプラクティスは主に単一言語のシナリオに焦点を合わせており、複雑な多言語コンテキスト、特に複雑な混合言語フォーマットにおいて、その有効性はほとんど探索されていない。
本研究では,高度で多言語的な条件下での各種LLM(例えば,GPT-4o,GPT-3.5,Llama3)の安全性アライメントを評価するための多言語クエリ応答方式であるMultilingual Blendingを紹介する。
さらに,多言語ブレンディングの有効性に影響を及ぼす言語利用,形態学,言語ファミリーなどの言語パターンについても検討した。
実験結果から,多言語ブレンディングは,厳密なプロンプトテンプレートを作らずに悪質なクエリの減少を著しく増大させ,LLM安全性アライメントのバイパス率(GPT-3.5では67.23%,GPT-4oでは40.34%)を著しく向上させ,単一言語ベースラインをはるかに上回る結果となった。
さらに、多言語ブレンディングのパフォーマンスは、異なる形態の言語と、安全アライメントを避ける傾向の多様な家族により、固有の言語特性に基づいて明らかに異なる。
これらの知見は,LLMの評価と,より優れた言語間一般化能力と整合する複雑な多言語コンテキストでの安全性アライメント戦略の開発の必要性を浮き彫りにした。
関連論文リスト
- Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment [4.368725325557961]
ソテリアは、各言語において有害なコンテンツ生成に最も関与する「機能的ヘッド」を最小限に特定し、調整する。
XThreatBenchは、実際のポリシーガイドラインから引き出されたきめ細かい有害な振る舞いをキャプチャする、特殊な多言語データセットである。
主要なオープンソース LLM による実験によると、Soteria は高、中、低リソース言語にわたる安全性の指標を一貫して改善している。
論文 参考訳(メタデータ) (2025-02-16T19:44:01Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps [63.10843814055688]
M-ALERTは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語で大言語モデルの安全性を評価するベンチマークである。
M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Guardians of Discourse: Evaluating LLMs on Multilingual Offensive Language Detection [10.129235204880443]
非英語文脈におけるタスクに対する異なるプロンプト言語と拡張翻訳データの影響を評価する。
本稿では, LLMにおける固有バイアスと, センシティブなトピックに関する誤予測におけるデータセットの影響について論じる。
論文 参考訳(メタデータ) (2024-10-21T04:08:16Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。
大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。
提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文 参考訳(メタデータ) (2024-09-20T20:53:22Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。