Fugu-MT 論文翻訳(概要): VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data

論文の概要: VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data

arxiv url: http://arxiv.org/abs/2410.00296v1
Date: Tue, 1 Oct 2024 00:37:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 06:35:59.489439
Title: VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data
Title（参考訳）: VLMGuard: ラベルなしデータによる悪意あるプロンプトに対するVLMの防御
Authors: Xuefeng Du, Reshmi Ghosh, Robert Sim, Ahmed Salem, Vitor Carvalho, Emily Lawton, Yixuan Li, Jack W. Stokes,
Abstract要約: VLMGuardは、未ラベルのユーザプロンプトを悪質なプロンプト検出に利用する、新しい学習フレームワークである。良性検体と悪性検体を区別するための自動悪意度推定スコアを提示する。私たちのフレームワークは、人間のアノテーションを余分に必要とせず、現実世界のアプリケーションに強力な柔軟性と実用性を提供します。
参考スコア（独自算出の注目度）: 29.806775884883685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) are essential for contextual understanding of both visual and textual information. However, their vulnerability to adversarially manipulated inputs presents significant risks, leading to compromised outputs and raising concerns about the reliability in VLM-integrated applications. Detecting these malicious prompts is thus crucial for maintaining trust in VLM generations. A major challenge in developing a safeguarding prompt classifier is the lack of a large amount of labeled benign and malicious data. To address the issue, we introduce VLMGuard, a novel learning framework that leverages the unlabeled user prompts in the wild for malicious prompt detection. These unlabeled prompts, which naturally arise when VLMs are deployed in the open world, consist of both benign and malicious information. To harness the unlabeled data, we present an automated maliciousness estimation score for distinguishing between benign and malicious samples within this unlabeled mixture, thereby enabling the training of a binary prompt classifier on top. Notably, our framework does not require extra human annotations, offering strong flexibility and practicality for real-world applications. Extensive experiment shows VLMGuard achieves superior detection results, significantly outperforming state-of-the-art methods. Disclaimer: This paper may contain offensive examples; reader discretion is advised.
Abstract（参考訳）: 視覚言語モデル(VLM)は、視覚情報とテキスト情報の両方の文脈的理解に不可欠である。しかし、逆に操作された入力に対する脆弱性は重大なリスクをもたらし、出力が損なわれ、VLM統合アプリケーションの信頼性に対する懸念が高まる。したがって、これらの悪意のあるプロンプトを検出することは、VLM世代に対する信頼を維持するために重要である。保護プロンプト分類器を開発する上での大きな課題は、大量のラベル付き良性および悪意のあるデータがないことである。この問題に対処するために,未ラベルのユーザプロンプトを活用する新しい学習フレームワークであるVLMGuardを導入し,悪意のあるプロンプト検出を行う。これらのラベルのないプロンプトは、VLMがオープンな世界に展開されたときに自然に発生するもので、良心と悪意のある情報の両方から構成される。このラベル付きデータを活用するために,このラベル付き混合物中の良性サンプルと悪性サンプルを区別する自動悪意度推定スコアを提示し,その上でバイナリプロンプト分類器のトレーニングを可能にする。特に、私たちのフレームワークは人間のアノテーションを余分に必要とせず、現実世界のアプリケーションに強力な柔軟性と実用性を提供します。大規模な実験により、VLMGuardは優れた検出結果を得ることができ、最先端の手法よりも優れていた。 Disclaimer: この論文には攻撃的な例が含まれており、読者の判断は推奨される。

関連論文リスト

Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Breaking the Prompt Wall (I): A Real-World Case Study of Attacking ChatGPT via Lightweight Prompt Injection [12.565784666173277]
本報告では,ChatGPTのような大規模言語モデルプラットフォームに対して,インジェクションのプロンプトがどう作用するかを示す実例を示す。本稿では,ユーザ入力や Web ベース検索,システムレベルのエージェント命令を通じて,敵対的プロンプトをインジェクションする方法を示す。
論文参考訳（メタデータ） (2025-04-20T05:59:00Z)
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning [23.71517734919702]
視覚言語モデル(VLM)は多モード入力を用いた生成モデルにおいて顕著な進歩を遂げている。現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
論文参考訳（メタデータ） (2025-03-14T19:52:08Z)
Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-12-23T13:05:51Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。 HiddenGuard には LLM と連携して動作する Prism が組み込まれている。実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文参考訳（メタデータ） (2024-10-03T17:10:41Z)
ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data [5.938113434208745]
教師付き学習ベースのソフトウェア脆弱性検出装置は、ラベル付きトレーニングデータの不十分な可用性のために、しばしば不足する。本稿では,脆弱性検出を異常検出の1つとして再検討する。我々のアプローチは、ラインレベルの脆弱性検出タスクにおいて、1.62times$から2.18times$より優れたトップ5アキュラシー、1.02times$から1.29times$より優れたROCスコアを達成する。
論文参考訳（メタデータ） (2024-08-28T03:28:17Z)
The Phantom Menace: Unmasking Privacy Leakages in Vision-Language Models [31.166994121531232]
VLM(Vision-Language Models)は視覚とテキストの理解を統合し、様々なタスクに適している。これらの機能は、Webからクロールされた大量の未処理データのトレーニングに基づいて構築される。本稿では,これらの脆弱性が存在するかどうかを,ID漏洩に着目して評価する。
論文参考訳（メタデータ） (2024-08-02T12:36:13Z)
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-07-31T09:23:57Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples [128.25509832644025]
インターネット上の視覚的プライバシー漏洩に対して、未学習の例(UE)を開発することへの関心が高まっている。 UEは、目に見えないが学習不可能なノイズを付加したトレーニングサンプルであり、機械学習モデルの不正なトレーニングを防ぐことができる。本稿では,無学習クラスタ (UC) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2022-12-31T04:26:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。