論文の概要: Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm
- arxiv url: http://arxiv.org/abs/2511.09392v1
- Date: Thu, 13 Nov 2025 01:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.549896
- Title: Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm
- Title(参考訳): 正当性:二段階拘束強化パラダイムによる逐次勧告に対するプロファイル汚染の再考
- Authors: Jiajie Su, Zihan Nan, Yunshan Ma, Xiaobo Xia, Xiaohua Feng, Weiming Liu, Xiaolin Zheng, Chaochao Chen,
- Abstract要約: 対話シーケンスを通じて動的ユーザインテントを利用するシークエンシャルリコメンダは、敵攻撃に対して脆弱である。
本報告では, ユーザインタラクションを微妙に汚染し, ターゲットの誤予測を誘発するプロファイル汚染攻撃について述べる。
本稿では,2段階の最適化フレームワークを多方向強化学習と相乗化して,対向効果とステルスネスのバランスをとる制約付き強化駆動攻撃 CREAT を提案する。
- 参考スコア(独自算出の注目度): 41.84340922774345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential Recommenders, which exploit dynamic user intents through interaction sequences, is vulnerable to adversarial attacks. While existing attacks primarily rely on data poisoning, they require large-scale user access or fake profiles thus lacking practicality. In this paper, we focus on the Profile Pollution Attack that subtly contaminates partial user interactions to induce targeted mispredictions. Previous PPA methods suffer from two limitations, i.e., i) over-reliance on sequence horizon impact restricts fine-grained perturbations on item transitions, and ii) holistic modifications cause detectable distribution shifts. To address these challenges, we propose a constrained reinforcement driven attack CREAT that synergizes a bi-level optimization framework with multi-reward reinforcement learning to balance adversarial efficacy and stealthiness. We first develop a Pattern Balanced Rewarding Policy, which integrates pattern inversion rewards to invert critical patterns and distribution consistency rewards to minimize detectable shifts via unbalanced co-optimal transport. Then we employ a Constrained Group Relative Reinforcement Learning paradigm, enabling step-wise perturbations through dynamic barrier constraints and group-shared experience replay, achieving targeted pollution with minimal detectability. Extensive experiments demonstrate the effectiveness of CREAT.
- Abstract(参考訳): 対話シーケンスを通じて動的ユーザインテントを利用するシークエンシャルリコメンダは、敵攻撃に対して脆弱である。
既存の攻撃は主にデータ中毒に依存しているが、大規模なユーザーアクセスやフェイクプロフィールを必要とするため、実用性に欠ける。
本稿では,ターゲットの誤予測を誘発する部分的ユーザインタラクションを微妙に汚染するプロファイル汚染攻撃に着目した。
従来のPPAメソッドは2つの制限、すなわち2つの制限に悩まされていた。
一 連続地平線衝撃の過度な信頼性は、項目遷移のきめ細かい摂動を制限し、
二 全体的な変更により、検出可能な分布シフトを引き起こすこと。
これらの課題に対処するために,両レベル最適化フレームワークとマルチリワード強化学習を併用し,敵の有効性とステルスネスのバランスをとる制約付き強化駆動攻撃 CREAT を提案する。
まず、パターン逆転報酬を統合し、臨界パターンと分布整合報酬を逆転させ、不均衡な共最適輸送による検出可能なシフトを最小限に抑えるパターン平衡回帰政策を開発する。
次に、制約付きグループ強化学習パラダイムを用いて、動的バリア制約とグループ共有体験の再生による段階的摂動を可能にし、最小限の検知可能性で目的の汚染を達成する。
広範囲にわたる実験は、CREATの有効性を実証している。
関連論文リスト
- Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference [45.723695657400576]
反撃の多様性とカバレッジの向上は、テスト時間防衛における敵の堅牢性向上に不可欠である。
直交直交対向攻撃(DOC)は、傾き方向と運動量に基づく更新を組み込むことで、対向最適化を強化する。
平均コサイン類似度に基づく指向性感度スコアを,サンプル識別を改善し,反撃強度を適応的に調節することによりDOCを増強する。
論文 参考訳(メタデータ) (2025-11-12T07:40:16Z) - Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。