論文の概要: VENOMREC: Cross-Modal Interactive Poisoning for Targeted Promotion in Multimodal LLM Recommender Systems
- arxiv url: http://arxiv.org/abs/2602.06409v1
- Date: Fri, 06 Feb 2026 06:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.252115
- Title: VENOMREC: Cross-Modal Interactive Poisoning for Targeted Promotion in Multimodal LLM Recommender Systems
- Title(参考訳): VENOMREC:マルチモーダルLLMレコメンダシステムにおけるターゲットプロモーションのためのクロスプラットフォームインタラクティブポジショニング
- Authors: Guowei Guan, Yurong Hao, Jiaming Zhang, Tiantong Wu, Fuyao Zhang, Tianxiang Chen, Longtao Huang, Cyril Leung, Wei Yang Bryan Lim,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は, コンテントグラウンド検索とクロスモーダル融合によるランク付けに向けてレコメンドシステム (RecSys) を推し進めている。
クロスモーダルなコンセンサスは,対話ログを操作したり,摂動を単一モーダルで操作する従来の中毒を緩和することが多いが,同時に,同期マルチモーダル中毒は,微調整中に安定した意味方向に沿って,融合表現を確実に操ることのできる,新たな攻撃面も導入している。
我々は、クロスモーダルなインタラクティブな中毒を定式化してVENOMRECを提案する。これは、共同埋め込み空間における高露光領域を識別するための露光アライメントと、クラフトに対するクロスモーダルなインタラクティブな摂動を実現する。
- 参考スコア(独自算出の注目度): 21.052560782262812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are pushing recommender systems (RecSys) toward content-grounded retrieval and ranking via cross-modal fusion. We find that while cross-modal consensus often mitigates conventional poisoning that manipulates interaction logs or perturbs a single modality, it also introduces a new attack surface where synchronised multimodal poisoning can reliably steer fused representations along stable semantic directions during fine-tuning. To characterise this threat, we formalise cross-modal interactive poisoning and propose VENOMREC, which performs Exposure Alignment to identify high-exposure regions in the joint embedding space and Cross-modal Interactive Perturbation to craft attention-guided coupled token-patch edits. Experiments on three real-world multimodal datasets demonstrate that VENOMREC consistently outperforms strong baselines, achieving 0.73 mean ER@20 and improving over the strongest baseline by +0.52 absolute ER points on average, while maintaining comparable recommendation utility.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は, コンテントグラウンド検索とクロスモーダル融合によるランク付けに向けてレコメンドシステム (RecSys) を推し進めている。
クロスモーダルなコンセンサスは,対話ログを操作したり,摂動を単一モーダルで操作する従来の中毒を緩和することが多いが,同時に,同期マルチモーダル中毒は,微調整中に安定した意味方向に沿って,融合表現を確実に操ることのできる新たな攻撃面も導入している。
この脅威を特徴付けるために,クロスモーダルなインタラクティブな毒殺を形式化し,共同埋め込み空間内の高露光領域を特定するための露光アライメントと,注意誘導型複合トークンパッチ編集を行うためのクロスモーダルなインタラクティブな摂動を実現するVENOMRECを提案する。
3つの実世界のマルチモーダルデータセットの実験では、VENOMRECは強いベースラインを一貫して上回り、0.73の平均ER@20を達成し、高いベースラインを+0.52絶対ERポイント平均で改善し、同等のレコメンデーションユーティリティを維持している。
関連論文リスト
- Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク
我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文 参考訳(メタデータ) (2026-01-16T10:09:39Z) - Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation [6.302779966909783]
医用画像セグメンテーションのための新しい半教師付きマルチモーダルフレームワークを提案する。
モダリティ固有のエンハンシングモジュール(MEM)を導入し、各モダリティに意味的なユニークな手がかりを強化する。
また,学習可能な相補的情報融合(CIF)モジュールを導入し,モダリティ間の相補的知識を適応的に交換する。
論文 参考訳(メタデータ) (2025-12-10T16:15:17Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。