論文の概要: GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives
- arxiv url: http://arxiv.org/abs/2605.09027v2
- Date: Wed, 13 May 2026 07:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.826048
- Title: GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives
- Title(参考訳): GAMBIT:マルチエージェントLCM集合体における逆ロバスト性のための3モードベンチマーク
- Authors: Alexandre Le Mercier, Chris Develder, Thomas Demeester,
- Abstract要約: GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
- 参考スコア(独自算出の注目度): 48.545980031973556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-agent systems (MAS), a single deceptive agent can nullify all gains of an agentic AI collective and evade deployed defenses. However, existing adversarial studies on MAS target only shallow tasks and do not consider adaptive adversaries, which evolve their strategies to evade the very detectors trained to catch them. To address that gap, we introduce GAMBIT, a benchmark with three evaluation modes and two independent scores for evaluating imposter detectors: the first two modes measure zero-shot detection under increasing distribution shift, and a third recalibration mode measures how quickly a detector adapts to novel attacks from just 20 labeled examples. The benchmark comes with a dataset of 27,804 labeled instances spanning 240 co-evolved imposter strategies. Our contributions are threefold: (1) Using chess as a substrate deep reasoning problem and Gemini 3.1 Pro for agents, we release GAMBIT and its dataset to evaluate imposter detectors under realistic constraints against a stealthy adaptive imposter; (2) We introduce an adaptive imposter agent based on an efficient evolutionary framework, generalizable beyond chess, that collapses collective task performance while remaining essentially undetectable (50.5% F1-score with a Gemini-based detector); (3) We show that zero-shot evaluation can be highly misleading for adaptive adversaries: two detectors with near-identical zero-shot scores differ by 8x on few-shot adaptation, while the meta-learned variant converges 20x faster, a gap only visible in the recalibration mode. Altogether, GAMBIT provides the first multi-agent benchmark where adversarial attacks and defenses co-evolve, with an imposter framework generalizable beyond our use case, and promising techniques for fast recalibration in a rapidly evolving adversarial system. Code and data: https://anonymous.4open.science/r/gambit.
- Abstract(参考訳): マルチエージェントシステム(MAS)では、エージェントAI集団の利益をすべて無効化し、デプロイされた防御を回避できる。
しかし、MASの既存の敵研究は、浅いタスクのみを対象としており、適応的な敵を考慮していない。
このギャップに対処するために,3つの評価モードと2つの独立スコアを備えたインポスタ検出器評価ベンチマークであるGAMBITを導入し,第1の2モードは分布シフトの増加によるゼロショット検出を計測し,第3のリカレーションモードは,わずか20個のラベル付き例からの新しい攻撃にいかに迅速に適応するかを計測する。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
我々は,(1) チェスを基質の深層推論問題として用いること,(2) GAMBITとそのデータセットを公開して,現実的な制約下でインポスタ検出器の評価を行うこと,(2) 効率のよい進化的枠組みに基づく適応型インポスタエージェントを導入すること,(2) 基本的には検出不能でありながら集合的タスク性能を崩壊させること,(3) ゼロショット評価は適応的敵に対して非常に誤解を招くこと,(3) メタ学習型ゼロショットスコアを持つ2つの検出器は,少数ショット適応において8倍の精度で,メタ学習型変種は20倍の速度で収束し,可視的リカレーションモードにおいてのみ可視なギャップを生じること,の3点を示した。
GAMBITは、敵攻撃と防衛が共進化する最初のマルチエージェントベンチマークであり、我々のユースケースを超えて一般化可能なインポスタフレームワークと、急速に進化する敵システムにおける迅速な再校正のための有望な技術を備えている。
コードとデータ:https://anonymous.4open.science/r/gambit
関連論文リスト
- Fight Poison with Poison: Enhancing Robustness in Few-shot Machine-Generated Text Detection with Adversarial Training [3.427574505782467]
提案するRAG-GuidEd攻撃器は、ストラストショット検出器(REACT)を駆動する。
REACTは、人間化指向のアタッカーとターゲット検出器を結合する。
我々は、REACTが8つの最先端検出器に対して平均F1を4.95ポイント改善することを示す。
論文 参考訳(メタデータ) (2026-05-04T09:16:57Z) - Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection [24.70528833663651]
物体検出モデルは、自動運転車や知覚に基づくロボットなど、自動システムの重要なコンポーネントである。
これらのモデルの防衛の進歩は、標準化された評価の欠如によって妨げられている分類の遅れを妨げている。
既存の作業では、異なるデータセット、一貫性のない効率指標、様々な摂動コストの測定が使用されているため、攻撃や防御の方法を徹底的に比較することはほぼ不可能である。
論文 参考訳(メタデータ) (2026-02-18T14:33:58Z) - NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - A Large-scale Multiple-objective Method for Black-box Attack against
Object Detection [70.00150794625053]
我々は、真正の確率を最小化し、偽正の確率を最大化し、より多くの偽正の物体が新しい真正の有界箱を作らないようにする。
我々は、GARSDCと呼ばれるランダム・サブセット選択とディバイド・アンド・コンカーによる標準的な遺伝的アルゴリズムを拡張し、効率を大幅に改善する。
最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。
論文 参考訳(メタデータ) (2022-09-16T08:36:42Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。