論文の概要: Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines
- arxiv url: http://arxiv.org/abs/2604.23483v1
- Date: Sun, 26 Apr 2026 00:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.387131
- Title: Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines
- Title(参考訳): ブラックボックスNLPパイプラインにおけるエージェント逆転書き換えによる構造脆弱性の抽出
- Authors: Mazal Bethany, Kim-Kwang Raymond Choo, Nishant Vishwamitra, Peyman Najafirad,
- Abstract要約: 本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。
現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
- 参考スコア(独自算出の注目度): 34.37967130277969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-component natural language processing (NLP) pipelines are increasingly deployed for high-stakes decisions, yet no existing adversarial method can test their robustness under realistic conditions: binary-only feedback, no gradient access, and strict query budgets. We formalize this strict black-box threat model and propose a two-agent evasion framework operating in a semantic perturbation space. An Attacker Agent generates meaning-preserving rewrites while a Prompt Optimization Agent refines the attack strategy using only binary decision feedback within a 10-query budget. Evaluated against four evidence-based misinformation detection pipelines, the framework achieves evasion rates of 19.95 to 40.34% on modern large language model (LLM) based systems, compared to at most 3.90% for token-level perturbation baselines that rely on surrogate models because they cannot operate under our threat model. A legacy system relying on static lexical retrieval exhibits near-total vulnerability 97.02%, establishing a lower bound that exposes how architectural choices govern the attack surface. Evasion effectiveness is associated with three architectural properties: evidence retrieval mechanism, retrieval-inference coupling, and baseline classification accuracy. The iterative prompt optimization yields the largest marginal gains against the most robust targets, confirming that adaptive strategy discovery is essential when evasion is non-trivial. Analysis of successful rewrites reveals four exploitation patterns, each targeting failures at distinct pipeline stages. A pattern-informed defense reduces the evasion rate by up to 65.18%.
- Abstract(参考訳): マルチコンポーネント自然言語処理(NLP)パイプラインは、ハイテイクな決定のためにますますデプロイされているが、現実的な条件下では、既存の敵対的手法では堅牢性をテストできない。
我々は、この厳密なブラックボックス脅威モデルを形式化し、セマンティック摂動空間で動作する2エージェント回避フレームワークを提案する。
アタッカーエージェントは、意味保存リライトを生成し、プロンプト最適化エージェントは、10キューの予算内で二分決定フィードバックのみを使用して攻撃戦略を洗練する。
4つの証拠に基づく誤情報検出パイプラインに対して評価され、このフレームワークは現代の大規模言語モデル(LLM)ベースのシステムにおいて、19.95から40.34%の回避率を達成する。
静的語彙検索に依存するレガシーシステムは、97.02%の脆弱性を示し、攻撃面をアーキテクチャ的に選択する方法を明らかにする下位境界を確立する。
エベイジオンの有効性は,エビデンス検索機構,検索-推論結合,ベースライン分類精度の3つのアーキテクチャ特性と関連付けられている。
反復的プロンプト最適化は最も堅牢な目標に対して最大の限界ゲインをもたらし、回避が非自明な場合に適応戦略発見が不可欠であることを確認した。
成功したリライトの分析では、4つのエクスプロイトパターンが明らかにされている。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
関連論文リスト
- Adaptive Defense Orchestration for RAG: A Sentinel-Strategist Architecture against Multi-Vector Attacks [0.0]
検索強化世代システムは、医療や法律などの機密性の高い領域にますます展開されている。
この機能は、メンバシップ推論、データ中毒、意図しないコンテンツのリークなど、重大なセキュリティリスクをもたらす。
本稿では,リスク分析と防衛選択のためのコンテキスト認識フレームワークであるSentinel-Strategistアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-22T11:17:10Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - How Do LLMs Fail In Agentic Scenarios? A Qualitative Analysis of Success and Failure Scenarios of Various LLMs in Agentic Simulations [0.0]
ツール使用機能を備えた自律型エージェントとして運用する場合,大規模言語モデル(LLM)がいかに失敗するかを検討する。
上座エージェントメリット指数(KAMI)v0.1ベンチマークを用いて、3つの代表モデルから900の実行トレースを解析した。
4つの繰り返し発生する障害アーチタイプを識別する:接地なしでの未熟なアクション、欠落したエンティティを置換する過剰なヘルパフルネス、イントラクタによるコンテキスト汚染に対する脆弱性、脆弱な実行。
論文 参考訳(メタデータ) (2025-12-08T12:27:15Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - CAMOUFLAGE: Exploiting Misinformation Detection Systems Through LLM-driven Adversarial Claim Transformation [4.02943411607022]
既存のブラックボックステキストベースの敵攻撃は、証拠に基づく誤情報検出システムには不適である。
本稿では,2エージェントシステムを用いた反復的LCM駆動型アプローチであるCAMOUFLAGEについて述べる。
最近の2つの学術システムと2つの実世界のAPIを含む4つのシステムでCAMOUFLAGEを評価し、平均的な攻撃成功率は46.92%である。
論文 参考訳(メタデータ) (2025-05-03T19:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。