Fugu-MT 論文翻訳(概要): The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts

論文の概要: The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts

arxiv url: http://arxiv.org/abs/2401.13136v1
Date: Tue, 23 Jan 2024 23:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 15:50:48.894303
Title: The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts
Title（参考訳）: 言語障壁:多言語文脈におけるllmの安全性の課題
Authors: Lingfeng Shen, Weiting Tan, Sihao Chen, Yunmo Chen, Jingyu Zhang, Haoran Xu, Boyuan Zheng, Philipp Koehn, Daniel Khashabi
Abstract要約: 本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
参考スコア（独自算出の注目度）: 46.089025223336854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the influence of large language models (LLMs) spans across global communities, their safety challenges in multilingual settings become paramount for alignment research. This paper examines the variations in safety challenges faced by LLMs across different languages and discusses approaches to alleviating such concerns. By comparing how state-of-the-art LLMs respond to the same set of malicious prompts written in higher- vs. lower-resource languages, we observe that (1) LLMs tend to generate unsafe responses much more often when a malicious prompt is written in a lower-resource language, and (2) LLMs tend to generate more irrelevant responses to malicious prompts in lower-resource languages. To understand where the discrepancy can be attributed, we study the effect of instruction tuning with reinforcement learning from human feedback (RLHF) or supervised finetuning (SFT) on the HH-RLHF dataset. Surprisingly, while training with high-resource languages improves model alignment, training in lower-resource languages yields minimal improvement. This suggests that the bottleneck of cross-lingual alignment is rooted in the pretraining stage. Our findings highlight the challenges in cross-lingual LLM safety, and we hope they inform future research in this direction.
Abstract（参考訳）: 大規模言語モデル(LLM)の影響が世界規模で広がるにつれ、多言語環境における安全性の課題はアライメント研究において最重要となる。本稿では,異なる言語間でllmが直面する安全課題の多様性について検討し,これらの懸念を緩和するためのアプローチについて考察する。 1) llmは低リソース言語で書かれた悪質なプロンプトに対して、より安全でないプロンプトを生成する傾向にあり、(2) llmは低リソース言語で悪質なプロンプトに対して、より無関係なレスポンスを生成する傾向がある。そこで本研究では,人間からのフィードバック(RLHF)や教師付き微調整(SFT)による指導指導がHH-RLHFデータセットに与える影響について検討した。驚いたことに、高リソース言語のトレーニングはモデルのアライメントを改善する一方で、低リソース言語のトレーニングは最小限の改善をもたらす。これは、言語間アライメントのボトルネックが事前学習段階に根ざしていることを示唆している。本研究は,言語間LLM安全性の課題を浮き彫りにしたものであり,今後の研究を期待する。

関連論文リスト

Beyond Weaponization: NLP Security for Medium and Lower-Resourced Languages in Their Own Right [0.0]
本研究は,低級・中級言語におけるLMの安全性について検討する。これらの言語に対する単言語および多言語LMの安全性を評価するため、最大70言語に対する既存の敵攻撃を拡張した。
論文参考訳（メタデータ） (2025-07-04T10:54:04Z)
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文参考訳（メタデータ） (2025-06-09T11:09:39Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文参考訳（メタデータ） (2025-04-03T15:46:46Z)
A Framework to Assess Multilingual Vulnerabilities of LLMs [12.20376696905759]
大規模言語モデル(LLM)は、複数の言語での理解や応答を含む幅広い機能を獲得している。本稿では,LLMの多言語脆弱性を自動的に評価するフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T11:39:44Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文参考訳（メタデータ） (2024-10-23T18:27:36Z)
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文参考訳（メタデータ） (2024-07-10T03:26:15Z)
A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。本稿では,中国のLLMの安全性評価のためのデータセットを提案する。次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文参考訳（メタデータ） (2024-02-19T14:56:18Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。