論文の概要: On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression
- arxiv url: http://arxiv.org/abs/2601.21531v1
- Date: Thu, 29 Jan 2026 10:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.745451
- Title: On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression
- Title(参考訳): 視覚的トーケン圧縮下における大規模視覚言語モデルの逆ロバスト性について
- Authors: Xinwei Zhang, Hangcheng Liu, Li Bai, Hao Wang, Qingqing Ye, Tianwei Zhang, Haibo Hu,
- Abstract要約: 既存のエンコーダベースの攻撃は、圧縮視覚言語モデル(LVLM)の堅牢性を大幅に過大評価できることを示す。
本稿では, 圧縮機構やトークンの予算を仮定することなく, 摂動最適化と圧縮推論を一致させる圧縮-AliGnEd攻撃(CAGE)を提案する。
- 参考スコア(独自算出の注目度): 22.436953683970007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual token compression is widely used to accelerate large vision-language models (LVLMs) by pruning or merging visual tokens, yet its adversarial robustness remains unexplored. We show that existing encoder-based attacks can substantially overestimate the robustness of compressed LVLMs, due to an optimization-inference mismatch: perturbations are optimized on the full-token representation, while inference is performed through a token-compression bottleneck. To address this gap, we propose the Compression-AliGnEd attack (CAGE), which aligns perturbation optimization with compression inference without assuming access to the deployed compression mechanism or its token budget. CAGE combines (i) expected feature disruption, which concentrates distortion on tokens likely to survive across plausible budgets, and (ii) rank distortion alignment, which actively aligns token distortions with rank scores to promote the retention of highly distorted evidence. Across diverse representative plug-and-play compression mechanisms and datasets, our results show that CAGE consistently achieves lower robust accuracy than the baseline. This work highlights that robustness assessments ignoring compression can be overly optimistic, calling for compression-aware security evaluation and defenses for efficient LVLMs.
- Abstract(参考訳): 視覚トークン圧縮は、視覚トークンのプルーニングやマージによって大きな視覚言語モデル(LVLM)を加速するために広く用いられているが、その逆の堅牢性は未解明のままである。
既存のエンコーダベースの攻撃は、最適化推論ミスマッチにより圧縮LVLMのロバスト性を著しく過大評価できることを示す。
このギャップに対処するため,圧縮機構やトークンの予算を仮定することなく,摂動最適化と圧縮推論を一致させる圧縮-AliGnEd攻撃(CAGE)を提案する。
CAGE Combins
一 有望な予算をまたいで存続する可能性のあるトークンの歪みを集中させる期待的特徴乱れ
(二) トークン歪みをランクスコアと積極的に整合させ、高度に歪んだ証拠の保持を促進するランク歪みアライメント。
様々な代表的プラグ・アンド・プレイ圧縮機構とデータセットに対して,CAGEはベースラインよりも低ロバストな精度を実現していることを示す。
この研究は、圧縮を無視するロバストネス評価が過度に楽観的であり、効率的なLVLMのための圧縮対応セキュリティ評価と防御を求めていることを強調している。
関連論文リスト
- CSGaussian: Progressive Rate-Distortion Compression and Segmentation for 3D Gaussian Splatting [57.73006852239138]
本稿では,3次元ガウススプラッティングの速度歪み最適化圧縮とセグメンテーションのための最初の統一フレームワークを提案する(3DGS)。
速度歪みに最適化された3DGS圧縮の最近の進歩に触発されたこの研究は、セマンティックラーニングを圧縮パイプラインに統合し、デコーダ側アプリケーションをサポートする。
提案方式は暗黙的ニューラル表現に基づくハイパープライアを特徴とし,色属性と意味属性の両方の効率的なエントロピー符号化を実現する。
論文 参考訳(メタデータ) (2026-01-19T08:21:45Z) - Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models [69.84867664371826]
視覚トークン圧縮はLVLM(Large Vision-Language Models)のロバスト性を大幅に低下させることを示す。
小さくて知覚不能な摂動はトークンの重要度を著しく変更し、圧縮機構が誤ってタスククリティカル情報を破棄する。
我々は,この脆弱性を体系的に研究し,活用するための圧縮認識攻撃を提案する。
論文 参考訳(メタデータ) (2026-01-17T13:02:41Z) - Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models [19.536595270049016]
本稿では,VoCo-LLaMAを適応圧縮のための軽量な予測器で拡張するフレームワークであるAdaptive-VoCoを提案する。
実験結果から,本手法は複数のマルチモーダルタスクの固定レートベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-12-20T20:24:07Z) - UniComp: Rethinking Video Compression Through Informational Uniqueness [16.98296446798904]
UniCompは、制約のある計算予算の下で、ビデオ表現の情報忠実度を最大化することを目的としている。
本稿では,情報固有性の概念を導入して,トークン間の固有冗長性を計測し,再構成誤差とリンクする。
論文 参考訳(メタデータ) (2025-12-03T08:56:23Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - Contextual Compression Encoding for Large Language Models: A Novel Framework for Multi-Layered Parameter Space Pruning [0.0]
文脈圧縮。
(CCE)はパラメータ分布を動的に再構成する多段符号化機構を導入した。
CCEは言語表現力とコヒーレンスを維持し、テキスト生成や分類タスクの精度を維持した。
論文 参考訳(メタデータ) (2025-02-12T11:44:19Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaptation [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。
制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
実験により,制御-GICは高い柔軟かつ制御可能な適応を可能にし,その結果が最近の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。