論文の概要: CAMOUFLAGE: Exploiting Misinformation Detection Systems Through LLM-driven Adversarial Claim Transformation
- arxiv url: http://arxiv.org/abs/2505.01900v1
- Date: Sat, 03 May 2025 19:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.323495
- Title: CAMOUFLAGE: Exploiting Misinformation Detection Systems Through LLM-driven Adversarial Claim Transformation
- Title(参考訳): CAMOUFLAGE:LCM駆動の対角クレーム変換による誤情報検出システムの構築
- Authors: Mazal Bethany, Nishant Vishwamitra, Cho-Yu Jason Chiang, Peyman Najafirad,
- Abstract要約: 既存のブラックボックステキストベースの敵攻撃は、証拠に基づく誤情報検出システムには不適である。
本稿では,2エージェントシステムを用いた反復的LCM駆動型アプローチであるCAMOUFLAGEについて述べる。
最近の2つの学術システムと2つの実世界のAPIを含む4つのシステムでCAMOUFLAGEを評価し、平均的な攻撃成功率は46.92%である。
- 参考スコア(独自算出の注目度): 4.02943411607022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated evidence-based misinformation detection systems, which evaluate the veracity of short claims against evidence, lack comprehensive analysis of their adversarial vulnerabilities. Existing black-box text-based adversarial attacks are ill-suited for evidence-based misinformation detection systems, as these attacks primarily focus on token-level substitutions involving gradient or logit-based optimization strategies, which are incapable of fooling the multi-component nature of these detection systems. These systems incorporate both retrieval and claim-evidence comparison modules, which requires attacks to break the retrieval of evidence and/or the comparison module so that it draws incorrect inferences. We present CAMOUFLAGE, an iterative, LLM-driven approach that employs a two-agent system, a Prompt Optimization Agent and an Attacker Agent, to create adversarial claim rewritings that manipulate evidence retrieval and mislead claim-evidence comparison, effectively bypassing the system without altering the meaning of the claim. The Attacker Agent produces semantically equivalent rewrites that attempt to mislead detectors, while the Prompt Optimization Agent analyzes failed attack attempts and refines the prompt of the Attacker to guide subsequent rewrites. This enables larger structural and stylistic transformations of the text rather than token-level substitutions, adapting the magnitude of changes based on previous outcomes. Unlike existing approaches, CAMOUFLAGE optimizes its attack solely based on binary model decisions to guide its rewriting process, eliminating the need for classifier logits or extensive querying. We evaluate CAMOUFLAGE on four systems, including two recent academic systems and two real-world APIs, with an average attack success rate of 46.92\% while preserving textual coherence and semantic equivalence to the original claims.
- Abstract(参考訳): 証拠に対する短い主張の正確性を評価する自動証拠に基づく誤情報検出システムは、敵の脆弱性の包括的分析を欠いている。
既存のブラックボックステキストベースの敵攻撃は、証拠に基づく誤情報検出システムには不適であり、これらの攻撃は主に、勾配やロジットに基づく最適化戦略を含むトークンレベルの置換に焦点を当てている。
これらのシステムには検索とクレームエビデンス比較モジュールの両方が組み込まれており、エビデンスと/または比較モジュールの検索を壊し、誤った推論を引き出すために攻撃を必要とする。
本稿では, 2エージェントシステム, プロンプト最適化エージェント, 攻撃エージェントを用いた反復的LCM駆動型アプローチであるCAMOUFLAGEを提案する。
アタッカーエージェントは、検知器を誤解させようとする意味論的に等価な書き直しを生成し、プロンプト最適化エージェントは、失敗した攻撃の試みを分析し、アタッカーのプロンプトを洗練して、その後の書き直しを誘導する。
これにより、トークンレベルの置換よりも大きな構造的およびスタイリスティックなテキスト変換が可能になり、以前の結果に基づいて変更の規模を調整できる。
既存のアプローチとは異なり、CAMOUFLAGEはバイナリモデル決定のみに基づいて攻撃を最適化し、リライトプロセスをガイドし、分類器のログや広範囲なクエリを不要にする。
近年の2つの学術システムと2つの実世界のAPIを含む4つのシステム上でCAMOUFLAGEを評価する。
関連論文リスト
- Residual-Evasive Attacks on ADMM in Distributed Optimization [2.999222219373899]
本稿では,ADMMシステムにおける検出を回避するための2つの攻撃戦略を提案する。
我々は、残余がほとんど変化しないままにしておくことで、我々の攻撃は未発見のままであることを示す。
2つの戦略の比較は、一般的に使用されるナイーブ攻撃と合わせて、単純さ、検出可能性、有効性の間のトレードオフを明らかにしている。
論文 参考訳(メタデータ) (2025-04-22T09:12:27Z) - Debate-Driven Multi-Agent LLMs for Phishing Email Detection [0.0]
エージェント間の偽りの議論をシミュレートしてフィッシングメールを検出する多エージェント大規模言語モデル(LLM)を提案する。
提案手法では,2つの LLM エージェントを用いて,最終判断を代弁する判断エージェントを用いて,分類課題の論拠を提示する。
結果は、議論の構造自体が、余分なプロンプト戦略を伴わずに正確な決定を下すのに十分であることを示している。
論文 参考訳(メタデータ) (2025-03-27T23:18:14Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - TrustRAG: Enhancing Robustness and Trustworthiness in RAG [31.231916859341865]
TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Generative Adversarial Network-Driven Detection of Adversarial Tasks in
Mobile Crowdsensing [5.675436513661266]
クラウドセンシングシステムは、不特定かつユビキタスなプロパティの上に構築されるため、さまざまな攻撃に対して脆弱である。
以前の研究では、GANベースの攻撃は実験的に設計された攻撃サンプルよりも重大な破壊力を示すことが示唆されている。
本稿では,GANモデルを統合することにより,知的に設計された不正なセンシングサービス要求を検出することを目的とする。
論文 参考訳(メタデータ) (2022-02-16T00:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。