論文の概要: Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.12042v1
- Date: Sat, 17 Jan 2026 13:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.43708
- Title: Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
- Title(参考訳): ビジョン・ランゲージモデルにおける視覚トーケン圧縮のセキュリティの落とし穴
- Authors: Xiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan,
- Abstract要約: 視覚トークン圧縮はLVLM(Large Vision-Language Models)のロバスト性を大幅に低下させることを示す。
小さくて知覚不能な摂動はトークンの重要度を著しく変更し、圧縮機構が誤ってタスククリティカル情報を破棄する。
我々は,この脆弱性を体系的に研究し,活用するための圧縮認識攻撃を提案する。
- 参考スコア(独自算出の注目度): 69.84867664371826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.
- Abstract(参考訳): 視覚トークン圧縮は、LVLM(Large Vision-Language Models)の推論効率を改善するために広く採用されており、レイテンシに敏感でリソース制約のあるシナリオへの展開を可能にする。
しかし、既存の研究は主に効率と性能に重点を置いているが、視覚トークン圧縮のセキュリティへの影響は未解明のままである。
本研究は,視覚的トークン圧縮がLVLMのロバスト性を著しく低下させることを最初に明らかにする。
これらの脆弱性は、状態固有のものであり、圧縮された設定でのみフェールモードが出現し、圧縮が無効になったときに完全に消滅するので、特に隠蔽され、診断が困難である。
圧縮過程の鍵となる段階を解析することにより,このロバスト性劣化の原因として,トークンの重要度ランキングの不安定性を同定する。
小さくて知覚不能な摂動はトークンのランクを著しく変更し、圧縮機構が誤ってタスククリティカル情報を破棄し、最終的にモデル失敗を引き起こす。
本研究の目的は,この脆弱性を体系的に研究し,活用するための圧縮認識攻撃を提案することである。
CAAはトークン選択機構を直接ターゲットとし、圧縮推論の下でのみ障害を誘導する。
さらに、このアプローチをより現実的なブラックボックス設定に拡張し、ターゲットモデルも圧縮構成もアクセスできないTransfer CAAを導入します。
さらに、潜在的な防衛効果を評価し、限定的な保護しか提供していないことに気付きます。
モデル、データセット、圧縮方法にわたる大規模な実験により、視覚的トークン圧縮がロバスト性を著しく損なうことが示され、これまで見過ごされていた効率とセキュリティのトレードオフが明らかになった。
関連論文リスト
- Embodied Image Compression [105.9462341161654]
本稿では,身体的画像圧縮の科学的問題として初めて紹介する。
クローズドループ設定において,超低条件下での系統評価を容易にするため,標準化されたベンチマークEmbodiedCompを構築した。
既存のビジョン・ランゲージ・アクションモデルでは、エンボディード閾値以下で圧縮された場合、単純な操作タスクさえ確実に実行できないことを示す。
論文 参考訳(メタデータ) (2025-12-12T14:49:34Z) - T-MLA: A Targeted Multiscale Log--Exponential Attack Framework for Neural Image Compression [6.189705043887372]
マルチスケール対数攻撃フレームワークであるT-MLAを導入することで,より高度な脆弱性のクラスを提案する。
我々のアプローチは、攻撃された画像や再構成された画像の質を直接ターゲットにすることで、ウェーブレット領域における敵の摂動を発生させる。
私たちの発見は、生成およびコンテンツ配信パイプラインの中核にある重要なセキュリティ欠陥を明らかにしました。
論文 参考訳(メタデータ) (2025-11-02T21:06:33Z) - Joint Lossless Compression and Steganography for Medical Images via Large Language Models [63.454510290574355]
医用画像のための新しい非破壊圧縮・ステガノグラフィーフレームワークを提案する。
ビットプレーンスライシング(BPS)にインスパイアされて、医療画像にプライバシーメッセージを埋め込むことができる。
論文 参考訳(メタデータ) (2025-08-03T14:45:51Z) - Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression [12.215295420714787]
推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。
本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。
実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-29T07:34:22Z) - Human Aligned Compression for Robust Models [18.95453617434051]
画像モデルに対する敵対攻撃は、誤った予測を引き起こす知覚できない摂動を導入することによって、システムの堅牢性を脅かす。
本研究では, 従来のJPEGと比較した2つの学習モデル(HiFiCとELIC)を, 様々な品質レベルで比較した。
論文 参考訳(メタデータ) (2025-04-16T17:05:58Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression [33.45167213570976]
モデル圧縮が4次元に与える影響について検討する:(1)退化障害、すなわち、世代におけるバイアスと毒性、(2)表現障害、すなわち、識別的タスクにおけるバイアス、(3)方言バイアス、(4)言語モデリングと下流タスクのパフォーマンス。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-06T05:56:22Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Robustness and Transferability of Universal Attacks on Compressed Models [3.187381965457262]
エッジデバイスにDeep Neural Networks(DNN)を効率的にデプロイするには、プルーニングや量子化などのニューラルネットワーク圧縮方法が非常に効果的です。
特に、UAP(Universal Adversarial Perturbations)は、敵対的攻撃の強力なクラスである。
いくつかのシナリオでは、量子化は勾配マスキングを生じさせ、誤ったセキュリティ感覚を与える。
論文 参考訳(メタデータ) (2020-12-10T23:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。