Fugu-MT 論文翻訳(概要): Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models

論文の概要: Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models

arxiv url: http://arxiv.org/abs/2502.09723v1
Date: Thu, 13 Feb 2025 19:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.529101
Title: Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models
Title（参考訳）: 悪意のあるデータベースを作る - クエリコードをジェイルブレークした大規模言語モデルにエクスプロイトする
Authors: Qingsong Zou, Jingyu Xiao, Qing Li, Zhi Yan, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li, Yong Jiang,
Abstract要約: 安全アライメントの一般化性を検討するためのフレームワークであるQueryAttackを提案する。 LLMを知識データベースとして扱うことで、自然言語の悪意あるクエリをコードスタイルの構造化クエリに変換し、安全アライメント機構をバイパスする。 QueryAttack に対する防御策として,GPT-4-1106 上で ASR を最大 64% 削減できる防御法を調整する。
参考スコア（独自算出の注目度）: 44.27350994698781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models (LLMs) have demonstrated remarkable potential in the field of natural language processing. Unfortunately, LLMs face significant security and ethical risks. Although techniques such as safety alignment are developed for defense, prior researches reveal the possibility of bypassing such defenses through well-designed jailbreak attacks. In this paper, we propose QueryAttack, a novel framework to systematically examine the generalizability of safety alignment. By treating LLMs as knowledge databases, we translate malicious queries in natural language into code-style structured query to bypass the safety alignment mechanisms of LLMs. We conduct extensive experiments on mainstream LLMs, ant the results show that QueryAttack achieves high attack success rates (ASRs) across LLMs with different developers and capabilities. We also evaluate QueryAttack's performance against common defenses, confirming that it is difficult to mitigate with general defensive techniques. To defend against QueryAttack, we tailor a defense method which can reduce ASR by up to 64\% on GPT-4-1106. The code of QueryAttack can be found on https://anonymous.4open.science/r/QueryAttack-334B.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、自然言語処理の分野において顕著な可能性を示している。残念ながら、LLMは重大なセキュリティと倫理上のリスクに直面している。安全アライメントなどの技術は防衛のために開発されているが、以前の研究では、よく設計されたジェイルブレイク攻撃によってそのような防衛をバイパスする可能性を明らかにしていた。本稿では,安全アライメントの一般化性を体系的に検証する新しいフレームワークであるQueryAttackを提案する。 LLMを知識データベースとして扱うことにより、LLMの安全アライメント機構を回避するために、自然言語の悪意あるクエリをコードスタイルの構造化クエリに変換する。この結果から、QueryAttackは、開発者や能力の異なるLLM全体で高い攻撃成功率(ASR)を達成することが示された。また、QueryAttackの性能を一般的な防御技術で緩和することが困難であることを確認した。 QueryAttackに対抗するために、GPT-4-1106上で最大64\%のASRを削減できる防御方法を調整する。 QueryAttackのコードはhttps://anonymous.4open.science/r/QueryAttack-334Bにある。

関連論文リスト

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文参考訳（メタデータ） (2025-06-09T11:09:39Z)
Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts? [32.583583725567834]
LLM(Large Language Models)は、敵の攻撃やジェイルブレイクの影響を受けやすい言語である。安全調整されたLLMがアライメント後の安全応答を誘発する自然的プロンプトに対して安全かどうかを評価する。
論文参考訳（メタデータ） (2024-12-04T11:36:37Z)
SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文参考訳（メタデータ） (2024-10-23T18:27:36Z)
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。 ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文参考訳（メタデータ） (2024-06-04T07:27:36Z)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳（メタデータ） (2024-05-28T13:26:12Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文参考訳（メタデータ） (2023-12-07T08:29:58Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。