論文の概要: Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.25403v2
- Date: Fri, 27 Mar 2026 15:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 18:25:50.567389
- Title: Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models
- Title(参考訳): 形状と物質:局所視覚言語モデルにおける2層側チャネル攻撃
- Authors: Eyal Hadad, Mordechai Guri,
- Abstract要約: デバイス上のビジョンランゲージモデル(VLM)は、ローカル実行を通じてデータのプライバシを約束する。
動的高分解能前処理へのアーキテクチャシフトは,アルゴリズム的なサイドチャネルを導入している。
ローカルなVLMに対する2層アタック・フレームワークを実演する。
- 参考スコア(独自算出の注目度): 2.1198879079315573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device Vision-Language Models (VLMs) promise data privacy via local execution. However, we show that the architectural shift toward Dynamic High-Resolution preprocessing (e.g., AnyRes) introduces an inherent algorithmic side-channel. Unlike static models, dynamic preprocessing decomposes images into a variable number of patches based on their aspect ratio, creating workload-dependent inputs. We demonstrate a dual-layer attack framework against local VLMs. In Tier 1, an unprivileged attacker can exploit significant execution-time variations using standard unprivileged OS metrics to reliably fingerprint the input's geometry. In Tier 2, by profiling Last-Level Cache (LLC) contention, the attacker can resolve semantic ambiguity within identical geometries, distinguishing between visually dense (e.g., medical X-rays) and sparse (e.g., text documents) content. By evaluating state-of-the-art models such as LLaVA-NeXT and Qwen2-VL, we show that combining these signals enables reliable inference of privacy-sensitive contexts. Finally, we analyze the security engineering trade-offs of mitigating this vulnerability, reveal substantial performance overhead with constant-work padding, and propose practical design recommendations for secure Edge AI deployments.
- Abstract(参考訳): デバイス上のビジョンランゲージモデル(VLM)は、ローカル実行を通じてデータのプライバシを約束する。
しかし、動的高分解能前処理(例えば、AnyRes)へのアーキテクチャシフトは、本質的にアルゴリズム的なサイドチャネルを導入している。
静的モデルとは異なり、動的プリプロセッシングはイメージをアスペクト比に基づいて可変数のパッチに分解し、ワークロード依存の入力を生成する。
ローカルなVLMに対する2層アタック・フレームワークを実演する。
Tier 1では、非特権の攻撃者は、標準の非特権のOSメトリクスを使用して、入力の幾何学を確実にフィンガープリントすることができる。
Tier 2では、Last-Level Cache (LLC) 競合をプロファイリングすることで、攻撃者は同一のジオメトリ内のセマンティックなあいまいさを解決し、視覚的に密度の高い(例えば、医療用X線)とスパース(例えば、テキスト文書)のコンテンツを区別することができる。
LLaVA-NeXTやQwen2-VLといった最先端モデルを評価することで、これらの信号を組み合わせることで、プライバシーに敏感なコンテキストの信頼できる推測が可能になることを示す。
最後に、この脆弱性を緩和するセキュリティエンジニアリングのトレードオフを分析し、定常的なパディングによる大幅なパフォーマンスオーバーヘッドを明らかにし、セキュアなエッジAIデプロイメントのための実用的な設計レコメンデーションを提案する。
関連論文リスト
- Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。