論文の概要: Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture
- arxiv url: http://arxiv.org/abs/2407.07342v1
- Date: Wed, 10 Jul 2024 03:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:01:18.548740
- Title: Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture
- Title(参考訳): 多言語ブレンディング:LLMの言語混合による安全性アライメント評価
- Authors: Jiayang Song, Yuheng Huang, Zhehua Zhou, Lei Ma,
- Abstract要約: 我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
- 参考スコア(独自算出の注目度): 6.17896401271963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As safety remains a crucial concern throughout the development lifecycle of Large Language Models (LLMs), researchers and industrial practitioners have increasingly focused on safeguarding and aligning LLM behaviors with human preferences and ethical standards. LLMs, trained on extensive multilingual corpora, exhibit powerful generalization abilities across diverse languages and domains. However, current safety alignment practices predominantly focus on single-language scenarios, which leaves their effectiveness in complex multilingual contexts, especially for those complex mixed-language formats, largely unexplored. In this study, we introduce Multilingual Blending, a mixed-language query-response scheme designed to evaluate the safety alignment of various state-of-the-art LLMs (e.g., GPT-4o, GPT-3.5, Llama3) under sophisticated, multilingual conditions. We further investigate language patterns such as language availability, morphology, and language family that could impact the effectiveness of Multilingual Blending in compromising the safeguards of LLMs. Our experimental results show that, without meticulously crafted prompt templates, Multilingual Blending significantly amplifies the detriment of malicious queries, leading to dramatically increased bypass rates in LLM safety alignment (67.23% on GPT-3.5 and 40.34% on GPT-4o), far exceeding those of single-language baselines. Moreover, the performance of Multilingual Blending varies notably based on intrinsic linguistic properties, with languages of different morphology and from diverse families being more prone to evading safety alignments. These findings underscore the necessity of evaluating LLMs and developing corresponding safety alignment strategies in a complex, multilingual context to align with their superior cross-language generalization capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発ライフサイクルを通じて、安全は重要な関心事であり続けており、研究者や工業従事者は、LLMの行動と人間の嗜好と倫理的基準の保護と整合性に注目している。
LLMは多言語コーパスに基づいて訓練され、多様な言語やドメインにまたがる強力な一般化能力を示す。
しかし、現在の安全アライメントのプラクティスは主に単一言語のシナリオに焦点を合わせており、複雑な多言語コンテキスト、特に複雑な混合言語フォーマットにおいて、その有効性はほとんど探索されていない。
本研究では,高度で多言語的な条件下での各種LLM(例えば,GPT-4o,GPT-3.5,Llama3)の安全性アライメントを評価するための多言語クエリ応答方式であるMultilingual Blendingを紹介する。
さらに,多言語ブレンディングの有効性に影響を及ぼす言語利用,形態学,言語ファミリーなどの言語パターンについても検討した。
実験結果から,多言語ブレンディングは,厳密なプロンプトテンプレートを作らずに悪質なクエリの減少を著しく増大させ,LLM安全性アライメントのバイパス率(GPT-3.5では67.23%,GPT-4oでは40.34%)を著しく向上させ,単一言語ベースラインをはるかに上回る結果となった。
さらに、多言語ブレンディングのパフォーマンスは、異なる形態の言語と、安全アライメントを避ける傾向の多様な家族により、固有の言語特性に基づいて明らかに異なる。
これらの知見は,LLMの評価と,より優れた言語間一般化能力と整合する複雑な多言語コンテキストでの安全性アライメント戦略の開発の必要性を浮き彫りにした。
関連論文リスト
- Guardians of Discourse: Evaluating LLMs on Multilingual Offensive Language Detection [10.129235204880443]
非英語文脈におけるタスクに対する異なるプロンプト言語と拡張翻訳データの影響を評価する。
本稿では, LLMにおける固有バイアスと, センシティブなトピックに関する誤予測におけるデータセットの影響について論じる。
論文 参考訳(メタデータ) (2024-10-21T04:08:16Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。
大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。
提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文 参考訳(メタデータ) (2024-09-20T20:53:22Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。
我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。
これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。