論文の概要: DREAM: Dynamic Red-teaming across Environments for AI Models
- arxiv url: http://arxiv.org/abs/2512.19016v1
- Date: Mon, 22 Dec 2025 04:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.612149
- Title: DREAM: Dynamic Red-teaming across Environments for AI Models
- Title(参考訳): DREAM: AIモデルのための環境横断の動的リチーム
- Authors: Liming Lu, Xiang Gu, Junyu Huang, Jiawei Du, Yunhuai Liu, Yongbin Zhou, Shuchao Pang,
- Abstract要約: 我々は,動的多段階攻撃に対する大規模言語モデル(LLM)の評価フレームワークであるDREAMを紹介する。
DREAMの中核は、脆弱性のステートフルでクロスドメインな理解を維持するために、クロス環境適応知識グラフ(CE-AKG)を使用している。
これらの攻撃鎖は、ほとんどのモデルで70%以上のケースで成功している。
- 参考スコア(独自算出の注目度): 28.267208528754082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in agentic systems, where their interactions with diverse tools and environments create complex, multi-stage safety challenges. However, existing benchmarks mostly rely on static, single-turn assessments that miss vulnerabilities from adaptive, long-chain attacks. To fill this gap, we introduce DREAM, a framework for systematic evaluation of LLM agents against dynamic, multi-stage attacks. At its core, DREAM uses a Cross-Environment Adversarial Knowledge Graph (CE-AKG) to maintain stateful, cross-domain understanding of vulnerabilities. This graph guides a Contextualized Guided Policy Search (C-GPS) algorithm that dynamically constructs attack chains from a knowledge base of 1,986 atomic actions across 349 distinct digital environments. Our evaluation of 12 leading LLM agents reveals a critical vulnerability: these attack chains succeed in over 70% of cases for most models, showing the power of stateful, cross-environment exploits. Through analysis of these failures, we identify two key weaknesses in current agents: contextual fragility, where safety behaviors fail to transfer across environments, and an inability to track long-term malicious intent. Our findings also show that traditional safety measures, such as initial defense prompts, are largely ineffective against attacks that build context over multiple interactions. To advance agent safety research, we release DREAM as a tool for evaluating vulnerabilities and developing more robust defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)はエージェントシステムにおいてますます使われており、多様なツールや環境とのインタラクションが複雑で多段階的な安全性の課題を生み出している。
しかし、既存のベンチマークは主に、適応的なロングチェーン攻撃からの脆弱性を見逃すような、静的なシングルターンアセスメントに依存している。
このギャップを埋めるために、動的多段階攻撃に対するLLMエージェントの系統的評価のためのフレームワークであるDREAMを導入する。
DREAMの中核は、脆弱性のステートフルでクロスドメインな理解を維持するために、クロス環境対応知識グラフ(CE-AKG)を使用している。
このグラフは、349の異なるデジタル環境にわたる1,986のアトミックアクションの知識ベースから攻撃チェーンを動的に構築するコンテキスト化されたガイドラインポリシー探索(C-GPS)アルゴリズムをガイドする。
これらの攻撃チェーンは、ほとんどのモデルにおいて70%以上のケースで成功し、ステートフルで環境横断的なエクスプロイトの威力を示している。
これらの障害を分析することによって、現在のエージェントの2つの重要な弱点を識別する: コンテキスト的脆弱、環境をまたいで安全行動が伝達できないこと、長期にわたる悪意のある意図を追跡することができないこと。
また, 初期防御プロンプトなどの従来の安全対策は, 複数のインタラクションに文脈を組み込む攻撃に対して, ほとんど効果がないことが明らかとなった。
エージェント安全研究を進めるため,我々は脆弱性を評価し,より堅牢な防御を開発するためのツールとしてDREAMをリリースする。
関連論文リスト
- Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs [38.3239023969819]
大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
ツール・コンプリート・アタック(TCA)と呼ばれる新しい種類の脆弱性を特定し,提案する。
これらの脆弱性に対処するために、コンテキスト認識階層学習(CAHL)を導入します。
論文 参考訳(メタデータ) (2025-12-03T12:10:21Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。