Fugu-MT 論文翻訳(概要): Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images

論文の概要: Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images

arxiv url: http://arxiv.org/abs/2401.11170v1
Date: Sat, 20 Jan 2024 08:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 17:43:42.452605
Title: Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images
Title（参考訳）: バーボース画像を用いた大規模視覚言語モデルの高エネルギー化
Authors: Kuofeng Gao, Yang Bai, Jindong Gu, Shu-Tao Xia, Philip Torr, Zhifeng Li, Wei Liu
Abstract要約: 大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
参考スコア（独自算出の注目度）: 67.12517396475783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (VLMs) such as GPT-4 have achieved exceptional performance across various multi-modal tasks. However, the deployment of VLMs necessitates substantial energy consumption and computational resources. Once attackers maliciously induce high energy consumption and latency time (energy-latency cost) during inference of VLMs, it will exhaust computational resources. In this paper, we explore this attack surface about availability of VLMs and aim to induce high energy-latency cost during inference of VLMs. We find that high energy-latency cost during inference of VLMs can be manipulated by maximizing the length of generated sequences. To this end, we propose verbose images, with the goal of crafting an imperceptible perturbation to induce VLMs to generate long sentences during inference. Concretely, we design three loss objectives. First, a loss is proposed to delay the occurrence of end-of-sequence (EOS) token, where EOS token is a signal for VLMs to stop generating further tokens. Moreover, an uncertainty loss and a token diversity loss are proposed to increase the uncertainty over each generated token and the diversity among all tokens of the whole generated sequence, respectively, which can break output dependency at token-level and sequence-level. Furthermore, a temporal weight adjustment algorithm is proposed, which can effectively balance these losses. Extensive experiments demonstrate that our verbose images can increase the length of generated sequences by 7.87 times and 8.56 times compared to original images on MS-COCO and ImageNet datasets, which presents potential challenges for various applications. Our code is available at https://github.com/KuofengGao/Verbose_Images.
Abstract（参考訳）: GPT-4のような大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。しかしながら、VLMの展開にはかなりのエネルギー消費と計算資源が必要である。攻撃者がVLMの推論中に高エネルギー消費と遅延時間(遅延コスト)を悪用すると、計算資源を消費する。本稿では、この攻撃面をVLMの利用可能性について検討し、VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。 VLMの推論における高エネルギー遅延コストは、生成シーケンスの長さを最大化することによって制御できる。そこで本稿では,VLMを誘導し,推論中に長文を生成するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。具体的には3つの損失目標を設計する。まず、eos(end-of-sequence)トークンの発生を遅らせるために損失が提案されている。さらに、各生成されたトークンに対する不確実性損失とトークンの多様性損失をそれぞれ提案し、トークンレベルの出力依存性とシーケンスレベルの出力依存性を損なうことができる。さらに,これらの損失を効果的にバランスさせる時間的重み調整アルゴリズムを提案する。広範な実験により,ms-cocoおよびimagenetデータセットのオリジナル画像と比較して,生成シーケンスの長さを7.87倍,8.56倍に増やすことができた。私たちのコードはhttps://github.com/kuofenggao/verbose_imagesで利用可能です。

関連論文リスト

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文参考訳（メタデータ） (2025-06-18T17:59:49Z)
LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops [22.036024483035465]
我々はLingoLoopを提案する。これはMLLMに過剰に冗長なシーケンスを生成するよう誘導する攻撃である。トークンのPOSタグがEOSトークンを生成する可能性に強く影響していることが判明した。隠れ状態の規模を制限し、永続的なループを生成するようモデルに促すジェネレーティブ・パス・プルーニング機構を導入する。
論文参考訳（メタデータ） (2025-06-17T13:14:55Z)
Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM [41.796933489107815]
我々は,視覚トークンの計算レベルの冗長性を同定し,情報損失を確実にする。本稿では,プロキシビジョントークンを用いた新しいアプローチであるProxyVを提案する。
論文参考訳（メタデータ） (2025-05-21T17:59:52Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文参考訳（メタデータ） (2024-10-07T09:45:18Z)
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。 1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文参考訳（メタデータ） (2024-09-16T05:31:01Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments [10.50453920206006]
High-Resolution Early Dropping (HiRED) は、Large Language Model (LLM) ステージの前に固定トークン予算内で機能するトークンドロップ方式である。 HiREDは既存の高解像度ビジョンランゲージモデルとプラグイン・アンド・プレイで統合することができる。 NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成スループットを4.7向上し、ファーストトーケン生成遅延を15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。
論文参考訳（メタデータ） (2024-08-20T15:34:27Z)
VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。 LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文参考訳（メタデータ） (2024-06-18T05:05:12Z)
Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples [63.9198662100875]
本稿では,知覚不能な摂動を発生させることにより,推論中に高エネルギー遅延コストを誘導することを目的とする。生成シーケンスの長さを最大化することにより、高エネルギーレイテンシコストを操作できることが判明した。実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。
論文参考訳（メタデータ） (2024-04-25T12:11:38Z)
MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文参考訳（メタデータ） (2024-01-30T18:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。