論文の概要: The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure
- arxiv url: http://arxiv.org/abs/2605.17480v2
- Date: Tue, 19 May 2026 04:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.552281
- Title: The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure
- Title(参考訳): マルチエージェントシステムの安全性を低下させる、よりスマートな監査者のための機能パラドックス
- Authors: Qiqi Liu, Thorsten Holz, Shilin Ye, Runhan Song,
- Abstract要約: これは、有害な要求がドメイン固有の物語の中に隠され、Workerレポートを通じてマネージャに伝達される攻撃である。
労働者の能力が増加するにつれて、平均的なシステムレベルの攻撃成功率(ASR)は18.4%から63.9%に増加し、94.4%がピークである。
非対称なドメイン能力とWorkersのペアを組み合わさった異種アンサンブル検証を提案する。
- 参考スコア(独自算出の注目度): 11.822284421559814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-agent systems extend large language models (LLMs) by decomposing tasks among specialized agents, but their distributed decision process creates new attack surfaces. We identify semantic hijacking, an attack in which harmful requests are concealed within domain-specific narratives and propagated to a Manager through Worker reports, without any syntactic injection primitives. Across 42,000 adversarial trials over 12 Manager models and 7 Worker configurations, we uncover a capability paradox: as Worker capability increases, the mean system-level Attack Success Rate (ASR) increases from 18.4% to 63.9%, peaking at 94.4%. To explain this effect, we conduct multi-level mediation analysis on two independent datasets (47,807 interactions). This analysis shows that this paradox is driven by linguistic certainty: stronger Workers are more likely to interpret adversarial narratives as legitimate, convey their conclusions assertively, and thereby lead Managers to treat such confident endorsements as justification to execute. In our larger Worker-Only setting ($n_W$=14), certainty mediates 74% of the effect, with 95% confidence intervals (CI) excluding zero under both Monte Carlo and cluster bootstrap; the smaller Full-MAS setting ($n_W$ =6) shows a directionally consistent indirect effect. Worker-side safety prompting does not reliably mitigate this failure. Building on the mediation finding, we propose heterogeneous ensemble verification, which pairs Workers of asymmetric domain competence so their complementary vulnerabilities break the certainty-to-execution chain, reducing ASR from 52.8% to 2.0% with negligible benign-task impact. Our results show that upgrading components to stronger models can actively degrade system security, and that effective defenses require exploiting--rather than eliminating--capability asymmetries between agents.
- Abstract(参考訳): マルチエージェントシステムは、特定のエージェント間でタスクを分解することで、大きな言語モデル(LLM)を拡張するが、その分散決定プロセスは新しい攻撃面を生成する。
セマンティックハイジャックは、有害な要求をドメイン固有の物語の中に隠蔽し、Workerレポートを通じてマネージャに伝達する攻撃であり、構文的インジェクションプリミティブは含まない。
12のマネージャモデルと7のWorker構成に対する42,000の敵対的試行の結果、私たちは能力パラドックスを発見した: 労働者能力が増加するにつれて、システムレベルのアタック成功率(ASR)の平均は18.4%から63.9%に増加し、94.4%に達した。
この効果を説明するために、2つの独立したデータセット(47,807の相互作用)上でマルチレベルメディエーション分析を行う。
この分析は、このパラドックスが言語的確実性によって引き起こされていることを示している: より強い労働者は、敵の物語を正当であると解釈し、その結論を断固として伝え、結果としてマネージャは、そのような自信ある支持を、実行の正当化として扱うように仕向ける。
より大規模なWorker-Onlyセッティング($n_W$=14)では、確実性は効果の74%を媒介し、95%の信頼区間(CI)はモンテカルロとクラスタブートストラップの両方でゼロを除き、より小さなFull-MASセッティング($n_W$=6)は方向整合的な間接効果を示している。
労働者側の安全策は、この失敗を確実に軽減しない。
そこで本研究では,非対称なドメイン能力を持つ労働者と組む異種アンサンブルの検証を行い,それらの相補的脆弱性が確実な実行連鎖を破り,ASRが52.8%から2.0%に減少することを示した。
以上の結果から,より強力なモデルにコンポーネントをアップグレードすることで,システムセキュリティを積極的に劣化させることが可能であることが示唆された。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - Intentional Deception as Controllable Capability in LLM Agents [0.0]
本稿では,マルチエージェントシステムにおいて,意図的騙しを工学的能力として体系的に研究する。
本研究では,ターゲットエージェントの特徴を推定し,その信念や動機に反する行動に対して,意図的反応を操る2段階のシステムについて検討する。
認知的介入は、一様分布ではなく、特定の行動プロファイルに集中する差分効果を生じさせる。
論文 参考訳(メタデータ) (2026-03-08T23:48:49Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文 参考訳(メタデータ) (2025-12-08T00:30:40Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。