Fugu-MT 論文翻訳(概要): Revisiting Backdoor Attacks against Large Vision-Language Models

論文の概要: Revisiting Backdoor Attacks against Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2406.18844v1
Date: Thu, 27 Jun 2024 02:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:27:31.072622
Title: Revisiting Backdoor Attacks against Large Vision-Language Models
Title（参考訳）: 大規模視線モデルに対するバックドアアタックの再検討
Authors: Siyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Ee-Chien Chang, Xiaochun Cao,
Abstract要約: 本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。以上に基づいて,既存のバックドア攻撃を修正した。本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
参考スコア（独自算出の注目度）: 76.42014292255944
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Instruction tuning enhances large vision-language models (LVLMs) but raises security risks through potential backdoor attacks due to their openness. Previous backdoor studies focus on enclosed scenarios with consistent training and testing instructions, neglecting the practical domain gaps that could affect attack effectiveness. This paper empirically examines the generalizability of backdoor attacks during the instruction tuning of LVLMs for the first time, revealing certain limitations of most backdoor strategies in practical scenarios. We quantitatively evaluate the generalizability of six typical backdoor attacks on image caption benchmarks across multiple LVLMs, considering both visual and textual domain offsets. Our findings indicate that attack generalizability is positively correlated with the backdoor trigger's irrelevance to specific images/models and the preferential correlation of the trigger pattern. Additionally, we modify existing backdoor attacks based on the above key observations, demonstrating significant improvements in cross-domain scenario generalizability (+86% attack success rate). Notably, even without access to the instruction datasets, a multimodal instruction set can be successfully poisoned with a very low poisoning rate (0.2%), achieving an attack success rate of over 97%. This paper underscores that even simple traditional backdoor strategies pose a serious threat to LVLMs, necessitating more attention and in-depth research.
Abstract（参考訳）: インストラクションチューニングは、大きな視覚言語モデル(LVLM)を強化するが、オープン性によるバックドア攻撃によるセキュリティリスクを高める。これまでのバックドア研究は、一貫したトレーニングとテストの指示を伴う囲い込みシナリオに焦点を当てており、攻撃効果に影響を与える可能性のある実践的なドメインギャップを無視している。本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化性を実証的に検討し,実践シナリオにおけるバックドア戦略の限界を明らかにした。視覚領域オフセットとテキスト領域オフセットの両方を考慮すると、複数のLVLMにまたがるイメージキャプションベンチマークに対する6つの典型的なバックドア攻撃の一般化可能性について定量的に評価する。その結果, 攻撃の一般化性は, 特定の画像・モデルに関係のないバックドアトリガーと, トリガーパターンの優先的相関に正の相関があることが示唆された。さらに、上記の主要な観測結果に基づいて既存のバックドア攻撃を修正し、クロスドメインシナリオの一般化可能性(+86%の攻撃成功率)を大幅に改善したことを示す。特に、命令データセットにアクセスしなくても、マルチモーダル命令セットは、非常に低い毒性率(0.2%)で、97%以上の攻撃成功率を達成することができる。この論文は、シンプルなバックドア戦略でさえLVLMに深刻な脅威をもたらし、より多くの注意と詳細な研究を必要としていることを強調している。

関連論文リスト

InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。 InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文参考訳（メタデータ） (2025-06-14T09:08:34Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。 CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文参考訳（メタデータ） (2024-12-11T19:54:14Z)
BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models [27.59116619946915]
textitBackdoorLLMは、生成型大規模言語モデルに対するバックドア攻撃を研究するための、最初の包括的なベンチマークである。 textitBackdoorLLMの機能: 1) 標準化されたトレーニングパイプラインを備えたバックドアベンチマークのレポジトリ、2) データ中毒、重毒、隠れ状態攻撃、およびチェーンオブ思想攻撃を含む多様な攻撃戦略、3) 7つのシナリオと6つのモデルアーキテクチャにわたる8つの攻撃に関する200以上の実験による広範な評価。
論文参考訳（メタデータ） (2024-08-23T02:21:21Z)
T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文参考訳（メタデータ） (2024-07-05T01:53:21Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文参考訳（メタデータ） (2024-04-30T14:43:57Z)
Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文参考訳（メタデータ） (2024-02-27T12:42:07Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Demystifying Poisoning Backdoor Attacks from a Statistical Perspective [35.30533879618651]
バックドア攻撃は、そのステルス性や潜在的に深刻な影響により、重大なセキュリティリスクを引き起こす。本稿では,一定のトリガを組み込んだバックドア攻撃の有効性を評価する。我々の導出した理解は、識別モデルと生成モデルの両方に適用できる。
論文参考訳（メタデータ） (2023-10-16T19:35:01Z)
Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文参考訳（メタデータ） (2023-07-19T17:44:54Z)
Rethinking the Trigger-injecting Position in Graph Backdoor Attack [7.4968235623939155]
バックドア攻撃は、機械学習モデルのセキュリティ脅威として実証されている。本稿では,グラフニューラルネットワーク(GNN)のバックドア攻撃に対する2つのトリガーインジェクション戦略について検討する。その結果, LIASの性能は向上し, LIASとMIASの差は大きいことがわかった。
論文参考訳（メタデータ） (2023-04-05T07:50:05Z)
Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文参考訳（メタデータ） (2023-03-01T07:54:54Z)
Understanding Impacts of Task Similarity on Backdoor Attack and Detection [17.5277044179396]
我々は,マルチタスク学習における類似度指標を用いて,メインタスクとバックドアタスク間のバックドア距離(類似度)を定義する。すると私たちは、既存のステルスなバックドア攻撃を分析し、そのほとんどはバックドア距離を効果的に減らすことができないことを明らかにしました。次に,TSA攻撃と呼ばれる新しい手法を設計し,所定の距離制約の下でバックドアモデルを自動的に生成する。
論文参考訳（メタデータ） (2022-10-12T18:07:39Z)
On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文参考訳（メタデータ） (2022-02-22T02:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。