論文の概要: Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction
- arxiv url: http://arxiv.org/abs/2604.08766v1
- Date: Thu, 09 Apr 2026 21:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.584023
- Title: Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction
- Title(参考訳): 視線追跡:VLMによる走査パス予測におけるバックドアアタック
- Authors: Diana Romero, Mutahar Ali, Momin Ahmad Khan, Habiba Farrukh, Fatima Anwar, Salma Elmalaki,
- Abstract要約: VLMに基づくスキャンパス予測に対するバックドアアタックの最初の研究について述べる。
提案手法は, 連続的な出力空間における検出可能なクラスタリングを創出するが, 有効な固定パス攻撃が可能であることを示す。
さらに、バックドアの挙動は、フラッグシップとレガシーの両方のコモディティスマートフォン上での量子化と展開を生き残ることを実証する。
- 参考スコア(独自算出の注目度): 6.034235164126964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scanpath prediction models forecast the sequence and timing of human fixations during visual search, driving foveated rendering and attention-based interaction in mobile systems where their integrity is a first-class security concern. We present the first study of backdoor attacks against VLM-based scanpath prediction, evaluated on GazeFormer and COCO-Search18. We show that naive fixed-path attacks, while effective, create detectable clustering in the continuous output space. To overcome this, we design two variable-output attacks: an input-aware spatial attack that redirects predicted fixations toward an attacker-chosen target object, and a scanpath duration attack that inflates fixation durations to delay visual search completion. Both attacks condition their output on the input scene, producing diverse and plausible scanpaths that evade cluster-based detection. We evaluate across three trigger modalities (visual, textual, and multimodal), multiple poisoning ratios, and five post-training defenses, finding that no defense simultaneously suppresses the attacks and preserves clean performance across all configurations. We further demonstrate that backdoor behavior survives quantization and deployment on both flagship and legacy commodity smartphones, confirming practical threat viability for edge-deployed gaze-driven systems.
- Abstract(参考訳): Scanpath予測モデルは、視覚検索中の人間の修正の順序とタイミングを予測し、その完全性が第一級セキュリティ上の懸念事項であるモバイルシステムにおいて、ファベートされたレンダリングと注意に基づくインタラクションを駆動する。
本稿では,GazeFormerとCOCO-Search18を用いて,VLMによるスキャンパス予測に対するバックドア攻撃について検討した。
提案手法は, 連続的な出力空間における検出可能なクラスタリングを創出するが, 有効な固定パス攻撃が可能であることを示す。
これを解決するために,攻撃対象物に対して予測固定をリダイレクトする入力対応空間攻撃と,視覚検索完了を遅らせるために固定期間を膨らませるスキャンパス攻撃という2つの可変出力攻撃を設計した。
どちらの攻撃も入力シーンに出力を条件付け、クラスタベースの検出を回避できる多種多様な可塑性スキャンパスを生成する。
我々は3つのトリガーモード(視覚、テキスト、マルチモーダル)、複数の毒素比、および5つのポストトレーニング防御について評価し、同時に防御が攻撃を抑え、全ての構成でクリーンな性能を維持することが確認された。
さらに,バックドアの挙動がフラッグシップとレガシの両コモディティ・スマートフォン上での定量化と展開を継続し,エッジ展開型視線駆動システムの実用的脅威生存性を確認することを実証した。
関連論文リスト
- Behavior-Aware and Generalizable Defense Against Black-Box Adversarial Attacks for ML-Based IDS [2.179313476241343]
ブラックボックスの敵攻撃は、機械学習ベースの侵入検知システムによってますます標的にされている。
本稿では,現実的なブラックボックスシナリオに特化して設計された,軽量かつプロアクティブな防御機構であるAdaptive Feature Poisoningを提案する。
我々は攻撃者を混乱させ、攻撃の有効性を低下させ、検出性能を維持する能力を評価する。
論文 参考訳(メタデータ) (2025-12-15T16:29:23Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - BadHMP: Backdoor Attack against Human Motion Prediction [11.271295378687887]
我々は,人間の動作予測タスクを対象とする,新しいバックドアアタックであるBadHMPを提案する。
我々のアプローチは、局所的なバックドアトリガーを骨格の片足に埋め込むことで、有毒なトレーニングサンプルを生成することである。
将来の配列はグローバルに修正され、全ての関節が標的軌道に沿って移動する。
論文 参考訳(メタデータ) (2024-09-29T09:55:31Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。