論文の概要: Resource Consumption Red-Teaming for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.18053v2
- Date: Fri, 26 Sep 2025 04:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.541974
- Title: Resource Consumption Red-Teaming for Large Vision-Language Models
- Title(参考訳): 大規模ビジョンランゲージモデルのための資源消費再編成
- Authors: Haoran Gao, Yuanhe Zhang, Zhenhong Zhou, Lei Jiang, Fanyu Meng, Yujia Xiao, Li Sun, Kun Wang, Yang Liu, Junlan Feng,
- Abstract要約: 大規模言語モデル(LLM)の展開に対する重大な脅威として、リソース消費攻撃(RCA)が出現している。
視覚モダリティの統合により、大規模視覚言語モデル(LVLM)におけるRCAのリスクが増大する。
- 参考スコア(独自算出の注目度): 30.199328528586665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resource Consumption Attacks (RCAs) have emerged as a significant threat to the deployment of Large Language Models (LLMs). With the integration of vision modalities, additional attack vectors exacerbate the risk of RCAs in large vision-language models (LVLMs). However, existing red-teaming studies have mainly overlooked visual inputs as a potential attack surface, resulting in insufficient mitigation strategies against RCAs in LVLMs. To address this gap, we propose RECITE ($\textbf{Re}$source $\textbf{C}$onsumpt$\textbf{i}$on Red-$\textbf{Te}$aming for LVLMs), the first approach for exploiting visual modalities to trigger unbounded RCAs red-teaming. First, we present $\textit{Vision Guided Optimization}$, a fine-grained pixel-level optimization to obtain \textit{Output Recall Objective} adversarial perturbations, which can induce repeating output. Then, we inject the perturbations into visual inputs, triggering unbounded generations to achieve the goal of RCAs. Empirical results demonstrate that RECITE increases service response latency by over 26 $\uparrow$, resulting in an additional 20\% increase in GPU utilization and memory consumption. Our study reveals security vulnerabilities in LVLMs and establishes a red-teaming framework that can facilitate the development of future defenses against RCAs.
- Abstract(参考訳): リソース消費攻撃(RCA)は、LLM(Large Language Models)の展開に対する重大な脅威として浮上している。
視覚モダリティの統合により、大規模視覚言語モデル(LVLM)におけるRCAのリスクが増大する。
しかし、既存のレッドチーム研究は、主に視覚入力を潜在的攻撃面として見落としており、LVLMにおけるRCAに対する緩和策が不十分である。
このギャップに対処するため、我々はRECITE ($\textbf{Re}$source $\textbf{C}$onsumpt$\textbf{i}$on Red-$\textbf{Te}$aming for LVLMs を提案する。
まず、$\textit{Vision Guided Optimization}$, a fine-fine-ixel-level optimization to obtain \textit{Output Recall Objective} adversarial perturbations, which can induceing output。
次に、摂動を視覚入力に注入し、無拘束世代を誘導してRCAの目標を達成する。
実証的な結果から、RECITEはサービスレスポンスのレイテンシを26$\uparrow$以上増加し、GPU使用率とメモリ消費量が20~%増加したことが示されている。
本研究は,LVLMのセキュリティ脆弱性を明らかにし,RCAに対する今後の防衛を支援するためのレッドチームフレームワークを構築した。
関連論文リスト
- Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Attacking the Loop: Adversarial Attacks on Graph-based Loop Closure
Detection [1.1060425537315086]
ループクロージャ検出(LCD)は視覚SLAM(vSLAM)の重要な構成要素である
本稿では,分散度に基づく摂動法を用いた新しいブラックボックス回避攻撃フレームワークであるAdversarial-LCDを提案する。
評価の結果,SVM-RBFサロゲートモデルを用いたAdversarial-LCDの攻撃性能は他の機械学習サロゲートアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T05:23:15Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。