論文の概要: EO-VLM: VLM-Guided Energy Overload Attacks on Vision Models
- arxiv url: http://arxiv.org/abs/2504.08205v1
- Date: Fri, 11 Apr 2025 02:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 21:43:30.578318
- Title: EO-VLM: VLM-Guided Energy Overload Attacks on Vision Models
- Title(参考訳): EO-VLM:視覚モデルによるVLM誘導エネルギー負荷攻撃
- Authors: Minjae Seo, Myoungsung You, Junhee Lee, Jaehan Kim, Hwanjo Heo, Jintae Oh, Jinwoo Kim,
- Abstract要約: ビジョンモデルは、自律運転やCCTV監視といった重要なアプリケーションにますますデプロイされている。
本稿では,視覚モデルを対象とした対向画像の生成に視覚言語モデルプロンプトを活用する,新たなエネルギー負荷攻撃を提案する。
我々の実験では、エネルギー消費が50%増加し、現在のビジョンモデルに致命的な脆弱性が明らかとなった。
- 参考スコア(独自算出の注目度): 5.239493736402951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision models are increasingly deployed in critical applications such as autonomous driving and CCTV monitoring, yet they remain susceptible to resource-consuming attacks. In this paper, we introduce a novel energy-overloading attack that leverages vision language model (VLM) prompts to generate adversarial images targeting vision models. These images, though imperceptible to the human eye, significantly increase GPU energy consumption across various vision models, threatening the availability of these systems. Our framework, EO-VLM (Energy Overload via VLM), is model-agnostic, meaning it is not limited by the architecture or type of the target vision model. By exploiting the lack of safety filters in VLMs like DALL-E 3, we create adversarial noise images without requiring prior knowledge or internal structure of the target vision models. Our experiments demonstrate up to a 50% increase in energy consumption, revealing a critical vulnerability in current vision models.
- Abstract(参考訳): ビジョンモデルは、自律運転やCCTV監視といった重要なアプリケーションにますますデプロイされていますが、リソース消費攻撃の影響を受けやすいままです。
本稿では、視覚言語モデル(VLM)のプロンプトを利用して、視覚モデルをターゲットにした対向画像を生成する新しいエネルギー負荷攻撃を提案する。
これらの画像は人間の目には認識できないが、様々なビジョンモデル全体でGPUのエネルギー消費を著しく増加させ、これらのシステムが利用可能になることを脅かしている。
我々のフレームワークであるEO-VLM(Energy Overload via VLM)はモデルに依存しない。
DALL-E 3 のような VLM の安全性フィルタの欠如を利用して,目標視モデルの事前知識や内部構造を必要とせずに,対向ノイズ画像を生成する。
我々の実験では、エネルギー消費が50%増加し、現在のビジョンモデルに致命的な脆弱性が明らかとなった。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。
我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:52:02Z) - VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework [47.58359136198136]
我々は、最新技術基盤モデルの統合と自動化を行うためにVisionGPTを導入する。
VisionGPTは一般化されたマルチモーダルフレームワーク上に構築されており、3つの重要な特徴を区別している。
本稿では,ビジョンGPTのアーキテクチャと能力について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:39:40Z) - Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models [42.379680603462155]
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-19T18:09:48Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。