論文の概要: AUV-Fusion: Cross-Modal Adversarial Fusion of User Interactions and Visual Perturbations Against VARS
- arxiv url: http://arxiv.org/abs/2507.22880v1
- Date: Wed, 30 Jul 2025 17:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.387387
- Title: AUV-Fusion: Cross-Modal Adversarial Fusion of User Interactions and Visual Perturbations Against VARS
- Title(参考訳): AUV-Fusion: ユーザインタラクションの相互対応融合とVARSに対する視覚的摂動
- Authors: Hai Ling, Tianchi Wang, Xiaohao Liu, Zhulin Tao, Lifang Yang, Xianglin Huang,
- Abstract要約: AUV-Fusionは、高次ユーザ嗜好モデリングを採用するクロスモーダル・アタック・フレームワークである。
AUV-Fusionは従来のベースライン法と比較してターゲット(コールドスタート)アイテムの露出を著しく向上させる。
- 参考スコア(独自算出の注目度): 3.68186360493378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Visual-Aware Recommender Systems (VARS) exploit the integration of user interaction data and visual features to deliver personalized recommendations with high precision. However, their robustness against adversarial attacks remains largely underexplored, posing significant risks to system reliability and security. Existing attack strategies suffer from notable limitations: shilling attacks are costly and detectable, and visual-only perturbations often fail to align with user preferences. To address these challenges, we propose AUV-Fusion, a cross-modal adversarial attack framework that adopts high-order user preference modeling and cross-modal adversary generation. Specifically, we obtain robust user embeddings through multi-hop user-item interactions and transform them via an MLP into semantically aligned perturbations. These perturbations are injected onto the latent space of a pre-trained VAE within the diffusion model. By synergistically integrating genuine user interaction data with visually plausible perturbations, AUV-Fusion eliminates the need for injecting fake user profiles and effectively mitigates the challenge of insufficient user preference extraction inherent in traditional visual-only attacks. Comprehensive evaluations on diverse VARS architectures and real-world datasets demonstrate that AUV-Fusion significantly enhances the exposure of target (cold-start) items compared to conventional baseline methods. Moreover, AUV-Fusion maintains exceptional stealth under rigorous scrutiny.
- Abstract(参考訳): 現代のVisual-Aware Recommender Systems (VARS)は、ユーザーインタラクションデータと視覚的特徴の統合を利用して、高精度にパーソナライズされたレコメンデーションを提供する。
しかし、敵の攻撃に対する堅牢性はほとんど未調査であり、システムの信頼性とセキュリティに重大なリスクを及ぼしている。
既存の攻撃戦略には、顕著な制限がある: シールド攻撃はコストが高く、検出可能であり、視覚のみの摂動は、ユーザの好みと一致しないことが多い。
これらの課題に対処するために,高次ユーザ嗜好モデリングとクロスモーダル対向生成を採用するクロスモーダル対向攻撃フレームワークであるAUV-Fusionを提案する。
具体的には,マルチホップユーザ-イテムインタラクションを通じて堅牢なユーザ埋め込みを取得し,それらをMDPを介して意味的に整合した摂動に変換する。
これらの摂動は拡散モデル内の事前訓練されたVAEの潜在空間に注入される。
AUV-Fusionは、真のユーザインタラクションデータを視覚的に可視な摂動と相乗的に統合することにより、偽のユーザプロファイルを注入する必要をなくし、従来の視覚のみの攻撃に固有の、ユーザー好みの抽出が不十分な課題を効果的に軽減する。
多様なVARSアーキテクチャと実世界のデータセットに関する総合的な評価は、AUV-Fusionが従来のベースライン手法と比較してターゲット(コールドスタート)アイテムの露出を著しく向上させることを示している。
さらに、AUV-Fusionは厳格な精査の下で異例のステルスを維持している。
関連論文リスト
- MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems [31.53306157650065]
マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T03:48:50Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Disentangled Contrastive Collaborative Filtering [36.400303346450514]
グラフコントラスト学習(GCL)は、監督ラベル不足問題に対処する上で、強力な性能を示した。
本稿では,自己監督型拡張による意図的ゆがみを実現するために,DCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。
我々のDCCFは、絡み合った自己超越信号からより微細な潜伏因子を蒸留できるだけでなく、増大による騒音を軽減することができる。
論文 参考訳(メタデータ) (2023-05-04T11:53:38Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Contextual Fusion For Adversarial Robustness [0.0]
ディープニューラルネットワークは、通常、1つの特定の情報ストリームを処理し、様々な種類の敵の摂動に影響を受けやすいように設計されている。
そこで我々はPlaces-CNNとImagenet-CNNから並列に抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。
グラデーションをベースとした攻撃では,フュージョンは乱れのないデータの性能を低下させることなく,分類の大幅な改善を可能にする。
論文 参考訳(メタデータ) (2020-11-18T20:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。