論文の概要: Inducing High Energy-Latency of Large Vision-Language Models with
Verbose Images
- arxiv url: http://arxiv.org/abs/2401.11170v1
- Date: Sat, 20 Jan 2024 08:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:43:42.452605
- Title: Inducing High Energy-Latency of Large Vision-Language Models with
Verbose Images
- Title(参考訳): バーボース画像を用いた大規模視覚言語モデルの高エネルギー化
- Authors: Kuofeng Gao, Yang Bai, Jindong Gu, Shu-Tao Xia, Philip Torr, Zhifeng
Li, Wei Liu
- Abstract要約: 大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
- 参考スコア(独自算出の注目度): 67.12517396475783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) such as GPT-4 have achieved exceptional
performance across various multi-modal tasks. However, the deployment of VLMs
necessitates substantial energy consumption and computational resources. Once
attackers maliciously induce high energy consumption and latency time
(energy-latency cost) during inference of VLMs, it will exhaust computational
resources. In this paper, we explore this attack surface about availability of
VLMs and aim to induce high energy-latency cost during inference of VLMs. We
find that high energy-latency cost during inference of VLMs can be manipulated
by maximizing the length of generated sequences. To this end, we propose
verbose images, with the goal of crafting an imperceptible perturbation to
induce VLMs to generate long sentences during inference. Concretely, we design
three loss objectives. First, a loss is proposed to delay the occurrence of
end-of-sequence (EOS) token, where EOS token is a signal for VLMs to stop
generating further tokens. Moreover, an uncertainty loss and a token diversity
loss are proposed to increase the uncertainty over each generated token and the
diversity among all tokens of the whole generated sequence, respectively, which
can break output dependency at token-level and sequence-level. Furthermore, a
temporal weight adjustment algorithm is proposed, which can effectively balance
these losses. Extensive experiments demonstrate that our verbose images can
increase the length of generated sequences by 7.87 times and 8.56 times
compared to original images on MS-COCO and ImageNet datasets, which presents
potential challenges for various applications. Our code is available at
https://github.com/KuofengGao/Verbose_Images.
- Abstract(参考訳): GPT-4のような大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
しかしながら、VLMの展開にはかなりのエネルギー消費と計算資源が必要である。
攻撃者がVLMの推論中に高エネルギー消費と遅延時間(遅延コスト)を悪用すると、計算資源を消費する。
本稿では、この攻撃面をVLMの利用可能性について検討し、VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
VLMの推論における高エネルギー遅延コストは、生成シーケンスの長さを最大化することによって制御できる。
そこで本稿では,VLMを誘導し,推論中に長文を生成するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
具体的には3つの損失目標を設計する。
まず、eos(end-of-sequence)トークンの発生を遅らせるために損失が提案されている。
さらに、各生成されたトークンに対する不確実性損失とトークンの多様性損失をそれぞれ提案し、トークンレベルの出力依存性とシーケンスレベルの出力依存性を損なうことができる。
さらに,これらの損失を効果的にバランスさせる時間的重み調整アルゴリズムを提案する。
広範な実験により,ms-cocoおよびimagenetデータセットのオリジナル画像と比較して,生成シーケンスの長さを7.87倍,8.56倍に増やすことができた。
私たちのコードはhttps://github.com/kuofenggao/verbose_imagesで利用可能です。
関連論文リスト
- MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - V2CE: Video to Continuous Events Simulator [1.1562008675377833]
ダイナミック・ビジョン・センサ(DVS)の特性を考慮した複数視点からのストリーム変換のための新しい手法を提案する。
慎重に設計された一連のタイムスタンプ損失は、生成されたイベントボクセルの品質を大幅に向上させるのに役立つ。
また,イベント・ボクセルからのイベント・タイムスタンプを連続的に再現するための局所動的推論手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T06:06:53Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。