論文の概要: DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2606.01212v1
- Date: Sun, 31 May 2026 13:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.387116
- Title: DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation
- Title(参考訳): DiscourseFlip: Black-box Retrieval-Augmented Generationに対する斜めの談話レベルオピニオン操作攻撃
- Authors: Yuyang Gong, Miaokun Chen, Jiawei Liu, Zhuo Chen, Guoxiu He, Wei Lu, XiaoFeng Wang, Xiaozhong Liu,
- Abstract要約: 既存のRAG攻撃は主に個々のクエリや狭いトピックローカルクエリセットに焦点を当てている。
セマンティック・クエリー・ネットワークにまたがる協調的な影響が意見シフトを引き起こす新たな脅威モデルである談話レベルの意見操作を導入する。
実験では、DiscourseFlipがコンテキスト化されたクエリネットワークをまたいで、目標とする意見シフトを一貫して誘導することを示した。
- 参考スコア(独自算出の注目度): 29.953161235840188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora exposes new security risks from poisoned retrieval content. Existing RAG attacks are largely focusing on individual queries or narrow topic-local query sets, which limits their practical reach and offers limited camouflage in real-world settings. In this paper, we introduce discourse-level opinion manipulation, a new threat model in which coordinated influence across a semantic query network induces opinion shifts over a holistic, multi-topic query space. We formalize this threat in a black-box setting and propose DiscourseFlip, an agentic, graph-guided attack that dynamically allocates a limited poisoning budget to maximize discourse-level opinion deviation. Extensive experiments demonstrate that DiscourseFlip consistently induces targeted opinion shifts across the contextualized query network and significantly outperforms existing baselines in terms of coverage and effectiveness. User studies further confirm that DiscourseFlip is effective while remaining well camouflaged from user detection. Moreover, systematic analyses show that existing mitigation strategies are ineffective against discourse-level manipulation, underscoring the urgent need for more robust and adaptive defenses to address discourse-level vulnerabilities.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは広く展開され、影響力を増しているが、外部コーパスへの依存は、有毒な検索コンテンツから新たなセキュリティリスクを露呈する。
既存のRAG攻撃は、個々のクエリや狭いトピックローカルクエリセットに重点を置いている。
本稿では,セマンティック・クエリ・ネットワークにまたがる協調的な影響が,総合的なマルチトピック・クエリ・スペース上での意見シフトを誘導する新たな脅威モデルである,談話レベルの意見操作を導入する。
我々は、この脅威をブラックボックス設定で形式化し、ディスコースレベルの意見偏差を最大化するために、限定的な毒殺予算を動的に割り当てるエージェント的グラフ誘導攻撃であるディスコースフリップを提案する。
広範な実験により、DiscourseFlipは、コンテキスト化されたクエリネットワーク全体にわたって、目標とする意見シフトを一貫して誘導し、カバー範囲と有効性の観点から、既存のベースラインを大幅に上回っていることが示される。
ユーザスタディでは、DiscourseFlipが有効であると同時に、ユーザ検出から十分なキャモフラージュを保っていることが確認されている。
さらに,既存の緩和戦略は談話レベルの操作に対して効果がないことを示し,談話レベルの脆弱性に対処するためのより堅牢で適応的な防御の必要性を浮き彫りにしている。
関連論文リスト
- Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems [51.504307822017985]
大規模言語モデルを用いたシーケンシャルレコメンデータシステム(LLM-SRS)は,最近顕著な性能を示した。
本稿では, LLM-SRSにおけるアイテムプロモーション攻撃について, 攻撃者に対してシステムプロンプトと被害者モデルの両方が未知な状況下で, より現実的な状況下で検討する。
論文 参考訳(メタデータ) (2026-04-26T10:09:26Z) - Vulnerability Disclosure through Adaptive Black-Box Adversarial Attacks on NIDS [0.393259574660092]
本稿では,ブラックボックス攻撃に対する新たなアプローチを提案する。
システムアクセスを前提としたり、繰り返し探索に依存する従来の作業とは異なり、我々の手法はブラックボックスの制約を厳密に尊重する。
本稿では,変化点検出と因果解析を用いた適応的特徴選択手法を提案する。
論文 参考訳(メタデータ) (2025-06-25T16:10:20Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。
それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。
近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。
本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文 参考訳(メタデータ) (2025-04-10T13:09:50Z) - Unknown Presentation Attack Detection against Rational Attackers [6.351869353952288]
プレゼンテーション攻撃検出とマルチメディア法医学は、まだ実生活環境での攻撃に対して脆弱である。
既存のソリューションの課題には、未知の攻撃の検出、敵の設定での実行能力、数発の学習、説明可能性などがある。
新たな最適化基準が提案され,実環境におけるこれらのシステムの性能向上のための要件が定義されている。
論文 参考訳(メタデータ) (2020-10-04T14:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。