論文の概要: QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety
- arxiv url: http://arxiv.org/abs/2506.12299v1
- Date: Sat, 14 Jun 2025 01:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.701298
- Title: QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety
- Title(参考訳): QGuard:マルチモーダルLLM安全のためのクエストベースゼロショットガード
- Authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng,
- Abstract要約: 有害なプロンプトをゼロショットでブロックする簡易かつ効果的な安全ガード手法であるQGuardを提案する。
実験の結果,本モデルはテキストのみとマルチモーダル有害データセットの両方で競合的に動作することがわかった。
- 参考スコア(独自算出の注目度): 0.027961972519572442
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent advancements in Large Language Models(LLMs) have had a significant impact on a wide range of fields, from general domains to specialized areas. However, these advancements have also significantly increased the potential for malicious users to exploit harmful and jailbreak prompts for malicious attacks. Although there have been many efforts to prevent harmful prompts and jailbreak prompts, protecting LLMs from such malicious attacks remains an important and challenging task. In this paper, we propose QGuard, a simple yet effective safety guard method, that utilizes question prompting to block harmful prompts in a zero-shot manner. Our method can defend LLMs not only from text-based harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by diversifying and modifying guard questions, our approach remains robust against the latest harmful prompts without fine-tuning. Experimental results show that our model performs competitively on both text-only and multi-modal harmful datasets. Additionally, by providing an analysis of question prompting, we enable a white-box analysis of user inputs. We believe our method provides valuable insights for real-world LLM services in mitigating security risks associated with harmful prompts.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩は、一般分野から専門分野まで幅広い分野に多大な影響を与えている。
しかし、これらの進歩は、悪意のあるユーザーが悪質な攻撃や脱獄のプロンプトを悪用する可能性を著しく高めている。
有害なプロンプトや脱獄のプロンプトを防ぐ努力は数多く行われているが、そのような悪意のある攻撃からLSMを保護することは重要かつ困難な課題である。
本稿では, 有害なプロンプトをゼロショットでブロックする質問プロンプトを利用した, シンプルで効果的な安全ガード手法であるQGuardを提案する。
本手法は、テキストベースの有害なプロンプトだけでなく、マルチモーダルな有害なプロンプト攻撃からもLLMを保護することができる。
さらに,ガード質問の多様化と修正によって,我々のアプローチは微調整をせずに最新の有害なプロンプトに対して頑健なままである。
実験の結果,本モデルはテキストのみとマルチモーダル有害データセットの両方で競合的に動作することがわかった。
さらに,質問応答の分析を行うことで,ユーザ入力のホワイトボックス解析を可能にする。
我々は、有害なプロンプトに関連するセキュリティリスクを軽減するために、現実のLLMサービスに貴重な洞察を提供すると信じている。
関連論文リスト
- SecurityLingua: Efficient Defense of LLM Jailbreak Attacks via Security-Aware Prompt Compression [11.839827036296649]
大規模言語モデル(LLM)は、安全アライメント後も悪意のある攻撃に対して脆弱である。
我々は,LLMをジェイルブレイク攻撃から守るための効果的かつ効率的なアプローチであるSecurityLinguaを提案する。
迅速な圧縮により、SecurityLinguaは既存のすべての防御方法と比較して、無視できるオーバーヘッドと余分なトークンコストしか発生しない。
論文 参考訳(メタデータ) (2025-06-15T03:39:13Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。
悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。