Fugu-MT 論文翻訳(概要): Jailbreaking LLMs with Arabic Transliteration and Arabizi

論文の概要: Jailbreaking LLMs with Arabic Transliteration and Arabizi

arxiv url: http://arxiv.org/abs/2406.18725v2
Date: Thu, 03 Oct 2024 17:10:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:22:59.91984
Title: Jailbreaking LLMs with Arabic Transliteration and Arabizi
Title（参考訳）: アラビア語の文字化とアラビジによるLLMのジェイルブレイク
Authors: Mansour Al Ghanim, Saleh Almohaimeed, Mengxin Zheng, Yan Solihin, Qian Lou,
Abstract要約: 本研究は,大規模言語モデル(LLM)による'jailbreak'攻撃の潜在的な脆弱性を明らかにする。我々の調査はアラビア語の調査の範囲を広げる。アラビア語とその様々な形態を使用することで、隠されたままの情報を公開することができ、脱獄のリスクが高まる可能性がある。
参考スコア（独自算出の注目度）: 13.252144130838557
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This study identifies the potential vulnerabilities of Large Language Models (LLMs) to 'jailbreak' attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model's learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.
Abstract（参考訳）: 本研究は,大規模言語モデル(LLM)の「ジェイルブレイク」攻撃に対する潜在的な脆弱性を明らかにし,アラビア語とその様々な形態に着目した。ほとんどの研究は英語による迅速な操作に集中しているが、我々の調査はアラビア語の調査の範囲を広げている。当初、私たちはAdvBenchベンチマークを標準アラビア語でテストし、プレフィックスインジェクションのような迅速な操作技術でも、LLMを刺激して安全でないコンテンツを生成するには不十分であることが分かりました。しかし、アラビア文字とチャットスピーク(またはアラビジ)を使用すると、OpenAI GPT-4 や Anthropic Claude 3 Sonnet のようなプラットフォーム上で、安全でないコンテンツが生成できることが判明した。我々の研究結果は、アラビア語とその様々な形態を用いることで、隠されたままの情報を公開し、脱獄攻撃のリスクを増大させる可能性があることを示唆している。この露出は、モデルが特定の単語と学習した関連性によるものかもしれないと仮定し、すべての言語形式にわたるより包括的な安全トレーニングの必要性を強調します。

関連論文リスト

Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。機械翻訳には形式的な構造が欠如しているため、大きな課題がある。本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文参考訳（メタデータ） (2025-02-28T11:37:52Z)
Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models [44.27350994698781]
安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。 LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文参考訳（メタデータ） (2025-02-13T19:13:03Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。 GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文参考訳（メタデータ） (2024-11-16T13:07:13Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文参考訳（メタデータ） (2024-10-22T14:12:43Z)
Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models [23.522660090382832]
イタリアでは、安全でない動作を誘発するために、モデルに安全でない動作を誘導する多発性ジェイルブレイクの有効性について検討する。安全でないデモがほとんどなかったとしても、モデルが安全でない振る舞いを示しており、さらに不安なことに、この傾向は、より多くのデモで急速にエスカレートしているのです。
論文参考訳（メタデータ） (2024-08-08T15:24:03Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
A Cross-Language Investigation into Jailbreak Attacks in Large Language Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。この特定の脅威に対処する総合的な実証研究が欠如している。本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-30T06:04:04Z)
Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文参考訳（メタデータ） (2024-01-22T18:34:42Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。