論文の概要: The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts
- arxiv url: http://arxiv.org/abs/2401.13136v1
- Date: Tue, 23 Jan 2024 23:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:50:48.894303
- Title: The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts
- Title(参考訳): 言語障壁:多言語文脈におけるllmの安全性の課題
- Authors: Lingfeng Shen, Weiting Tan, Sihao Chen, Yunmo Chen, Jingyu Zhang,
Haoran Xu, Boyuan Zheng, Philipp Koehn, Daniel Khashabi
- Abstract要約: 本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
- 参考スコア(独自算出の注目度): 46.089025223336854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the influence of large language models (LLMs) spans across global
communities, their safety challenges in multilingual settings become paramount
for alignment research. This paper examines the variations in safety challenges
faced by LLMs across different languages and discusses approaches to
alleviating such concerns. By comparing how state-of-the-art LLMs respond to
the same set of malicious prompts written in higher- vs. lower-resource
languages, we observe that (1) LLMs tend to generate unsafe responses much more
often when a malicious prompt is written in a lower-resource language, and (2)
LLMs tend to generate more irrelevant responses to malicious prompts in
lower-resource languages. To understand where the discrepancy can be
attributed, we study the effect of instruction tuning with reinforcement
learning from human feedback (RLHF) or supervised finetuning (SFT) on the
HH-RLHF dataset. Surprisingly, while training with high-resource languages
improves model alignment, training in lower-resource languages yields minimal
improvement. This suggests that the bottleneck of cross-lingual alignment is
rooted in the pretraining stage. Our findings highlight the challenges in
cross-lingual LLM safety, and we hope they inform future research in this
direction.
- Abstract(参考訳): 大規模言語モデル(LLM)の影響が世界規模で広がるにつれ、多言語環境における安全性の課題はアライメント研究において最重要となる。
本稿では,異なる言語間でllmが直面する安全課題の多様性について検討し,これらの懸念を緩和するためのアプローチについて考察する。
1) llmは低リソース言語で書かれた悪質なプロンプトに対して、より安全でないプロンプトを生成する傾向にあり、(2) llmは低リソース言語で悪質なプロンプトに対して、より無関係なレスポンスを生成する傾向がある。
そこで本研究では,人間からのフィードバック(RLHF)や教師付き微調整(SFT)による指導指導がHH-RLHFデータセットに与える影響について検討した。
驚いたことに、高リソース言語のトレーニングはモデルのアライメントを改善する一方で、低リソース言語のトレーニングは最小限の改善をもたらす。
これは、言語間アライメントのボトルネックが事前学習段階に根ざしていることを示唆している。
本研究は,言語間LLM安全性の課題を浮き彫りにしたものであり,今後の研究を期待する。
関連論文リスト
- Speak Out of Turn: Safety Vulnerability of Large Language Models in
Multi-turn Dialogue [10.703193963273128]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [81.6546357879259]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries [31.82249599013959]
大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
論文 参考訳(メタデータ) (2023-10-19T20:02:40Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。