論文の概要: Proactive Defense: Compound AI for Detecting Persuasion Attacks and Measuring Inoculation Effectiveness
- arxiv url: http://arxiv.org/abs/2511.21749v1
- Date: Sun, 23 Nov 2025 07:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.205294
- Title: Proactive Defense: Compound AI for Detecting Persuasion Attacks and Measuring Inoculation Effectiveness
- Title(参考訳): Proactive Defense: 説得攻撃の検出と接種効果の測定のための複合AI
- Authors: Svitlana Volkova, Will Dupree, Hsien-Te Kao, Peter Bautista, Gabe Ganberg, Jeff Beaubien, Laura Cassani,
- Abstract要約: 本稿では, 説得攻撃の有効性を検知し, 測定するために設計された, 複合AIアーキテクチャであるBRIESを紹介する。
本稿では, ターゲットの説得戦略を用いた敵対的コンテンツを生成するTwister, パラメータによる攻撃タイプを識別する検出器, コンテンツ接種による弾力性のあるコンテンツを生成するDefender, 因果推論を用いて接種効果を評価するアセスメントシステムを提案する。
- 参考スコア(独自算出の注目度): 1.1686584679011365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces BRIES, a novel compound AI architecture designed to detect and measure the effectiveness of persuasion attacks across information environments. We present a system with specialized agents: a Twister that generates adversarial content employing targeted persuasion tactics, a Detector that identifies attack types with configurable parameters, a Defender that creates resilient content through content inoculation, and an Assessor that employs causal inference to evaluate inoculation effectiveness. Experimenting with the SemEval 2023 Task 3 taxonomy across the synthetic persuasion dataset, we demonstrate significant variations in detection performance across language agents. Our comparative analysis reveals significant performance disparities with GPT-4 achieving superior detection accuracy on complex persuasion techniques, while open-source models like Llama3 and Mistral demonstrated notable weaknesses in identifying subtle rhetorical, suggesting that different architectures encode and process persuasive language patterns in fundamentally different ways. We show that prompt engineering dramatically affects detection efficacy, with temperature settings and confidence scoring producing model-specific variations; Gemma and GPT-4 perform optimally at lower temperatures while Llama3 and Mistral show improved capabilities at higher temperatures. Our causal analysis provides novel insights into socio-emotional-cognitive signatures of persuasion attacks, revealing that different attack types target specific cognitive dimensions. This research advances generative AI safety and cognitive security by quantifying LLM-specific vulnerabilities to persuasion attacks and delivers a framework for enhancing human cognitive resilience through structured interventions before exposure to harmful content.
- Abstract(参考訳): 本稿では,情報環境全体にわたる説得攻撃の有効性を検知し,測定するために設計された,新しい複合AIアーキテクチャであるBRIESを紹介する。
本稿では, ターゲットの説得戦略を用いた敵対的コンテンツを生成するTwister, 設定可能なパラメータで攻撃タイプを識別する検出器, コンテンツ接種による弾力性のあるコンテンツを生成するDefender, 因果推論を用いて接種効果を評価するAssessorのシステムを提案する。
SemEval 2023 Task 3 の分類を合成説得データセット全体にわたって実験し,言語エージェント間の検出性能に有意な差異が認められた。
Llama3やMistralのようなオープンソースのモデルは、微妙な修辞を識別する際、顕著な弱点を示し、異なるアーキテクチャが基本的に異なる方法で言語パターンをエンコードし処理することを示唆している。
Gemma と GPT-4 は,Llama3 と Mistral が高温における性能向上を示すのに対して,低温度で最適に動作可能であることを示す。
我々の因果分析は、説得攻撃の社会的感情的認知的シグネチャに関する新たな洞察を与え、異なる攻撃タイプが特定の認知次元をターゲットにしていることを明らかにする。
本研究は, LLM固有の脆弱性を定量化して説得攻撃を行い, 有害なコンテンツに曝露する前に, 構造化された介入を通じて人間の認知力を高めるための枠組みを提供することにより, 生成AIの安全性と認知セキュリティを向上する。
関連論文リスト
- Benchmarking Gaslighting Attacks Against Speech Large Language Models [31.842578503471586]
我々は、ガスライティング攻撃、戦略的に構築されたプロンプトを導入し、モデル推論を誤解させたり、覆ったり、歪んだりする。
具体的には、Anger、Cognitive Disruption、Sarcasm、Implicit、Professional Negationの5つの操作戦略を構築します。
我々のフレームワークは、無言の謝罪や拒絶など、パフォーマンス劣化と行動応答の両方を捉えています。
論文 参考訳(メタデータ) (2025-09-24T07:57:10Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - Countering Backdoor Attacks in Image Recognition: A Survey and Evaluation of Mitigation Strategies [10.801476967873173]
本稿では,画像認識におけるバックドア攻撃に対する既存の緩和策について概説する。
我々は、8つの異なるバックドア攻撃に対して、16の最先端アプローチの広範なベンチマークを行う。
この結果は122,236個の個別実験から得られたものであり、多くのアプローチがある程度の保護を提供する一方で、その性能はかなり異なる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-11-17T23:30:01Z) - Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Towards Understanding the Adversarial Vulnerability of Skeleton-based
Action Recognition [133.35968094967626]
骨格に基づく行動認識は、動的状況への強い適応性から注目を集めている。
ディープラーニング技術の助けを借りて、かなり進歩し、現在、良識のある環境で約90%の精度を達成している。
異なる対角的環境下での骨格に基づく行動認識の脆弱性に関する研究はいまだ研究されていない。
論文 参考訳(メタデータ) (2020-05-14T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。