論文の概要: LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops
- arxiv url: http://arxiv.org/abs/2506.14493v1
- Date: Tue, 17 Jun 2025 13:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.480022
- Title: LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops
- Title(参考訳): LingoLoop攻撃: 言語コンテキストと状態が無限ループに侵入するMLLMの追跡
- Authors: Jiyuan Fu, Kaixun Jiang, Lingyi Hong, Jinglun Li, Haijing Guo, Dingkang Yang, Zhaoyu Chen, Wenqiang Zhang,
- Abstract要約: 我々はLingoLoopを提案する。これはMLLMに過剰に冗長なシーケンスを生成するよう誘導する攻撃である。
トークンのPOSタグがEOSトークンを生成する可能性に強く影響していることが判明した。
隠れ状態の規模を制限し、永続的なループを生成するようモデルに促すジェネレーティブ・パス・プルーニング機構を導入する。
- 参考スコア(独自算出の注目度): 22.036024483035465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown great promise but require substantial computational resources during inference. Attackers can exploit this by inducing excessive output, leading to resource exhaustion and service degradation. Prior energy-latency attacks aim to increase generation time by broadly shifting the output token distribution away from the EOS token, but they neglect the influence of token-level Part-of-Speech (POS) characteristics on EOS and sentence-level structural patterns on output counts, limiting their efficacy. To address this, we propose LingoLoop, an attack designed to induce MLLMs to generate excessively verbose and repetitive sequences. First, we find that the POS tag of a token strongly affects the likelihood of generating an EOS token. Based on this insight, we propose a POS-Aware Delay Mechanism to postpone EOS token generation by adjusting attention weights guided by POS information. Second, we identify that constraining output diversity to induce repetitive loops is effective for sustained generation. We introduce a Generative Path Pruning Mechanism that limits the magnitude of hidden states, encouraging the model to produce persistent loops. Extensive experiments demonstrate LingoLoop can increase generated tokens by up to 30 times and energy consumption by a comparable factor on models like Qwen2.5-VL-3B, consistently driving MLLMs towards their maximum generation limits. These findings expose significant MLLMs' vulnerabilities, posing challenges for their reliable deployment. The code will be released publicly following the paper's acceptance.
- Abstract(参考訳): MLLM (Multimodal Large Language Models) は将来性を示すが、推論中にかなりの計算資源を必要とする。
攻撃者は過剰な出力を誘導することでこれを利用でき、リソースの枯渇とサービスの劣化につながる。
従来のエネルギー遅延攻撃は、出力トークンの分布をEOSトークンから大きくシフトさせることで生成時間を増やすことを目的としていたが、トークンレベルのPart-of-Speech(POS)特性がEOSおよび文レベルの構造パターンが出力数に与える影響を無視し、その有効性を制限した。
これを解決するためにLingoLoopを提案する。これはMLLMに過剰に冗長かつ反復的なシーケンスを生成するよう誘導する攻撃である。
まず、トークンのPOSタグがEOSトークンを生成する可能性に強く影響していることが分かる。
この知見に基づいて,POS情報によって誘導される注意重みを調整することで,EOSトークン生成を延期するPOS-Aware Delayメカニズムを提案する。
第二に、繰り返しループを誘導する出力の多様性の制約が持続的生成に有効であることを示す。
隠れ状態の規模を制限し、永続的なループを生成するようモデルに促すジェネレーティブ・パス・プルーニング機構を導入する。
大規模な実験では、LingoLoopは生成トークンを最大30倍まで増加させ、Qwen2.5-VL-3Bのようなモデルで同等のエネルギー消費量で消費することができる。
これらの発見は、MLLMの重大な脆弱性を明らかにし、信頼性の高いデプロイメントの課題を提起している。
コードは、論文の受理後、一般に公開される。
関連論文リスト
- BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models [79.36881186707413]
マルチモーダル大言語モデル(MLLM)はマルチモーダル情報を処理し、画像テキスト入力に対する応答を生成する。
MLLMは、細調整なしでプラグイン・アンド・プレイを通じて、自律運転や診断などの多様なマルチモーダルアプリケーションに組み込まれている。
MLLMに対する最初のトークンレベルのバックドア攻撃であるBadTokenを提案する。
論文 参考訳(メタデータ) (2025-03-20T10:39:51Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - An Engorgio Prompt Makes Large Language Model Babble on [25.148096060828397]
自動回帰型大規模言語モデル (LLM) は多くの実世界のタスクにおいて顕著な性能を発揮している。
本稿では,悪質なユーザがEngorgioのプロンプトを作らなければならないような,コスト・アタックを推論する脆弱性について検討する。
本研究では,新たな手法であるEngorgioを設計し,敵のEngorgioプロンプトを効率的に生成し,LLMのサービス可用性に影響を与える。
論文 参考訳(メタデータ) (2024-12-27T01:00:23Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images [63.91986621008751]
大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
論文 参考訳(メタデータ) (2024-01-20T08:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。