論文の概要: Evo-Attacker: Memory-Augmented Reinforcement Learning for Long-Horizon Tool Attacks on LLM-MAS
- arxiv url: http://arxiv.org/abs/2605.25389v1
- Date: Mon, 25 May 2026 03:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.272064
- Title: Evo-Attacker: Memory-Augmented Reinforcement Learning for Long-Horizon Tool Attacks on LLM-MAS
- Title(参考訳): Evo-Attacker: LLM-MASにおける長期ツール攻撃のためのメモリ強化強化学習
- Authors: Bingyu Yan, Xiaoming Zhang, Jinyu Hou, Chaozhuo Li, Ziyi Zhou, Yiming Hei, Litian Zhang,
- Abstract要約: 既存のツールアタックはドメインの特異性や固定および静的テンプレートによって制限される。
本稿では,ツール攻撃を自己進化型,メモリ拡張型強化学習プロセスとして定式化するEvo-Attackerを提案する。
- 参考スコア(独自算出の注目度): 25.38857069880524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Model-based Multi-Agent Systems (LLM-MAS) demonstrate remarkable capabilities in solving complex tasks by orchestrating specialized agents and external tools, the implicit trust in tool outputs creates a critical attack surface. Existing tool attacks are limited by domain specificity or fixed and static templates. To address these challenges, we propose Evo-Attacker, which formulates the tool attack as a self-evolving, memory-augmented reinforcement learning process. Evo-Attacker constructs a dynamic attack memory and employs deliberative reasoning to retrieve adversarial patterns and strategize modifying interventions at critical moments. Furthermore, we introduce Attack-Flow GRPO to optimize intermediate reasoning steps via terminal outcomes, addressing the long-horizon credit assignment challenge. Comprehensive experiments demonstrate that Evo-Attacker consistently outperforms baselines, highlighting its generalization and evolutionary capabilities and the urgent need for defensive tool safeguards.
- Abstract(参考訳): LLM-MAS(Large Language Model-based Multi-Agent Systems)は、特殊なエージェントと外部ツールを編成することで複雑なタスクを解く際、顕著な能力を示すが、ツール出力に対する暗黙的な信頼は、重要な攻撃面を生み出す。
既存のツールアタックはドメインの特異性や固定および静的テンプレートによって制限される。
これらの課題に対処するために,ツールアタックを自己進化型,メモリ拡張型強化学習プロセスとして定式化するEvo-Attackerを提案する。
Evo-Attackerは動的攻撃メモリを構築し、検証的推論を用いて敵のパターンを検索し、重要な瞬間に介入を修正する。
さらに,アタックフローGRPOを導入し,端末による中間推論手順を最適化し,長期クレジット割り当て問題に対処する。
総合的な実験により、エボ・アタッカーはベースラインを一貫して上回り、その一般化と進化の能力と防御ツールの保護の緊急の必要性を強調している。
関連論文リスト
- Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning [28.94914260713979]
大規模言語モデル(LRM)は明示的な多段階推論トレースを提供する。
アンラーニング技術は、トレーニングされたモデルから特定のデータの影響を、完全なリトレーニングなしで排除することを目的としている。
Unlearningは、新たなインタラクションサーフェスを公開することで、新たなセキュリティ脆弱性も導入する可能性がある。
論文 参考訳(メタデータ) (2026-04-05T20:21:18Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - EvoGuard: An Extensible Agentic RL-based Framework for Practical and Evolving AI-Generated Image Detection [19.507664662884086]
EvoGuardはAIGI検出のための新しいエージェントフレームワークである。
様々な最先端(SOTA)のMLLMと非MLLM検出器を呼び出し可能なツールとしてカプセル化している。
正と負のサンプル間のバイアスを緩和しながらSOTA精度を達成する。
論文 参考訳(メタデータ) (2026-03-18T04:14:40Z) - AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs [24.71883582216731]
AdapToolsは、ステルス攻撃ツールを選択し、適応攻撃プロンプトを生成する、新しい適応IPI攻撃フレームワークである。
AdapToolsは攻撃成功率を2.13倍改善し、システムの実用性は1.78に低下する。
論文 参考訳(メタデータ) (2026-02-24T09:32:19Z) - Exploiting Web Search Tools of AI Agents for Data Exfiltration [0.46664938579243564]
大規模言語モデル(LLM)は、自然言語処理からWeb検索のような動的まで、複雑なタスクの実行に日常的に使用されている。
ツールコールと検索拡張生成(RAG)の使用により、LLMは機密性の高い企業データの処理と取得が可能になり、その機能と悪用に対する脆弱性の両方を増幅する。
我々は、現在のLLMが間接的にインジェクションアタックを誘導し、どのパラメーター、モデルサイズや製造元が脆弱性を形作り、どの攻撃方法が最も効果的かを分析する。
論文 参考訳(メタデータ) (2025-10-10T07:39:01Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。