論文の概要: Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
- arxiv url: http://arxiv.org/abs/2506.07645v1
- Date: Mon, 09 Jun 2025 11:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.926598
- Title: Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models
- Title(参考訳): プロキシモデルを用いた低資源言語におけるLLMのロバスト性評価
- Authors: Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn,
- Abstract要約: 数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。
これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。
我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across various natural language processing (NLP) tasks in recent years. However, their susceptibility to jailbreaks and perturbations necessitates additional evaluations. Many LLMs are multilingual, but safety-related training data contains mainly high-resource languages like English. This can leave them vulnerable to perturbations in low-resource languages such as Polish. We show how surprisingly strong attacks can be cheaply created by altering just a few characters and using a small proxy model for word importance calculation. We find that these character and word-level attacks drastically alter the predictions of different LLMs, suggesting a potential vulnerability that can be used to circumvent their internal safety mechanisms. We validate our attack construction methodology on Polish, a low-resource language, and find potential vulnerabilities of LLMs in this language. Additionally, we show how it can be extended to other languages. We release the created datasets and code for further research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、近年、様々な自然言語処理(NLP)タスクにまたがる印象的な機能を示している。
しかし、ジェイルブレイクや摂動への感受性は、さらなる評価を必要とする。
多くのLLMは多言語であるが、安全に関するトレーニングデータは主に英語のような高リソース言語を含んでいる。
これにより、ポーランド語のような低リソース言語での摂動に弱いままにすることができる。
文字数だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃を安価に生成できることを示します。
これらの文字と単語レベルの攻撃は、異なるLLMの予測を劇的に変更し、内部の安全メカニズムを回避できる潜在的な脆弱性が示唆されている。
我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
さらに、他の言語にも拡張できることを示す。
作成したデータセットとコードをリリースして,さらなる研究を行っています。
関連論文リスト
- MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。