論文の概要: SCI-Defense: Defending Manipulation Attacks from Generative Engine Optimization
- arxiv url: http://arxiv.org/abs/2605.21948v1
- Date: Thu, 21 May 2026 03:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.515417
- Title: SCI-Defense: Defending Manipulation Attacks from Generative Engine Optimization
- Title(参考訳): SCI-Defense: 生成エンジン最適化による回避操作攻撃
- Authors: Xucheng Yu, Haibo Jin, Huimin Zeng, Haohan Wang,
- Abstract要約: SCI-Defenseは, パープレキシティ検出, セマンティック・インテリティ・スコアリング, カンジネート間検出を組み合わせた3成分ディフェンス・フレームワークである。
600のMS MARCOウェブパスでは、String攻撃は完全リコールでブロックされ、Review攻撃は、製品記述でSISがターゲットとする説得指向のシグナルが欠けているため、ほぼゼロリコールとなる。
- 参考スコア(独自算出の注目度): 30.491360390710422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based ranking systems are vulnerable to Generative Engine Optimization (GEO) attacks, where adversaries inject semantic signals into product descriptions to artificially boost rankings. We propose SCI-Defense, a three-component defense framework combining Perplexity detection (PPL), Semantic Integrity Scoring (SIS), and Inter-Candidate Detection (ICD). SIS evaluates four manipulation dimensions: Authority Attribution (AA), Narrative Purposiveness (NP), Comparative Claims (CA), and Temporal Claims (TC). Evaluated on 600 Amazon product descriptions across 6 categories, SCI-Defense achieves Precision=1.000 and FPR=0.000, with Recall of 1.000, 0.952, and 0.830 against String, Reasoning, and Review attacks respectively. On 600 MS MARCO web passages, String attacks are blocked with perfect recall while Review attacks yield near-zero recall, as web passages lack the persuasion-oriented signals that SIS targets in product descriptions. We demonstrate that existing defenses -- PPL-only filters, SafetyClf content classifiers, and paraphrasing -- achieve zero recall against semantic manipulation attacks. We further demonstrate new attacks such as Specification Amplification and Use-Case Saturation can expose semantic relevance manipulation as a structural defense blind spot that suggests directions for future research.
- Abstract(参考訳): LLMベースのランキングシステムはジェネレーティブエンジン最適化(GEO)攻撃に対して脆弱であり、敵は製品記述にセマンティックシグナルを注入し、ランキングを人工的に強化する。
本稿では,PPL(Perplexity Detection),SIS(Semantic Integrity Scoring),ICD(Inter-Candidate Detection)を組み合わせた3成分防衛フレームワークであるSCI-Defenseを提案する。
SISは、オーソリティ属性(AA)、Narrative Purposiveness(NP)、Comparent Claims(CA)、Temporal Claims(TC)の4つの操作次元を評価している。
SCI-Defenseは6つのカテゴリで600のAmazon製品の説明を評価し、精度=1.000、FPR=0.000、リコールは1.000、0.952、0.830、String、Reasoning、Review攻撃をそれぞれ達成している。
600のMS MARCOウェブパスでは、String攻撃は完全リコールでブロックされ、Review攻撃は、製品記述でSISがターゲットとする説得指向のシグナルが欠けているため、ほぼゼロリコールとなる。
PPLのみのフィルタ,SafetyClfのコンテンツ分類器,パラフレージングといった既存の防御機能が,セマンティックな操作攻撃に対するゼロリコールを実現することを実証した。
さらに、仕様増幅やユースケース飽和といった新たな攻撃が、将来の研究の方向性を示す構造的防御盲点として意味的関連性操作を明らかにすることを実証する。
関連論文リスト
- TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems [51.504307822017985]
大規模言語モデルを用いたシーケンシャルレコメンデータシステム(LLM-SRS)は,最近顕著な性能を示した。
本稿では, LLM-SRSにおけるアイテムプロモーション攻撃について, 攻撃者に対してシステムプロンプトと被害者モデルの両方が未知な状況下で, より現実的な状況下で検討する。
論文 参考訳(メタデータ) (2026-04-26T10:09:26Z) - AttackEval: A Systematic Empirical Study of Prompt Injection Attack Effectiveness Against Large Language Models [0.0]
アタックエヴァル(AttackEval)は、インジェクション攻撃の有効性の体系的研究である。
我々は3つの親集団(シンタクティック、コンテクチュアル、セマンティック/社会)に分類される10の攻撃カテゴリーの分類を構築する。
本研究は,4つのより強力な防衛層下での模擬生産犠牲者システムに対して評価を行った。
論文 参考訳(メタデータ) (2026-04-04T05:49:30Z) - ICL-EVADER: Zero-Query Black-Box Evasion Attacks on In-Context Learning and Their Defenses [8.57098009274006]
In-context Learning (ICL) は、大規模言語モデルを用いたテキスト分類において、強力なデータ効率のパラダイムとなっている。
In this present ICL-Evader, a novel black-box evasion attack framework which operating under a high practical zero-query threat model。
論文 参考訳(メタデータ) (2026-01-29T11:50:50Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Stealthy LLM-Driven Data Poisoning Attacks Against Embedding-Based Retrieval-Augmented Recommender Systems [16.79952669254101]
検索強化レコメンデータシステム(RAG)におけるプロバイダ側データ中毒について検討する。
アイテム記述内でわずかなトークンだけを変更することで、攻撃者はターゲットのアイテムを著しくプロモートまたはデモすることができる。
MovieLensの実験では、2つの大きな言語モデル(LLM)検索モジュールを使用して、微妙な攻撃でも最終的なランク付けとアイテムの露出が変化し、単純な検出が発覚した。
論文 参考訳(メタデータ) (2025-05-08T12:53:42Z) - Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。