論文の概要: Autonomous Adversary: Red-Teaming in the age of LLM
- arxiv url: http://arxiv.org/abs/2605.06486v1
- Date: Thu, 07 May 2026 16:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.979059
- Title: Autonomous Adversary: Red-Teaming in the age of LLM
- Title(参考訳): 自律的な敵 - LLM時代の再チーム化
- Authors: Mohammad Mamun, Mohamed Gaber, Scott Buffett, Sherif Saad,
- Abstract要約: 言語モデルエージェント(LMA)は、レッドチーム操作を増強するための強力なプリミティブとして現れている。
我々は、これらのエージェントが中核攻撃機能とどのように交わるかを分析し、現在の強度と限界を評価する。
制御された対向エミュレーション環境における2つの横移動シナリオのLMAをベンチマークする。
- 参考スコア(独自算出の注目度): 1.4302803674538154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Model Agents (LMAs) are emerging as a powerful primitive for augmenting red-team operations. They can support attack planning, adversary emulation, and the orchestration of multi-step activity such as lateral movement, a core enabling capability of advanced persistent threat (APT) campaigns. Using frameworks such as MITRE ATT&CK, we analyze where these agents intersect with core offensive functions and assess current strengths and limitations of LMAs with an emphasis on governance and realistic evaluation. We benchmark LMAs across two lateral-movement scenarios in a controlled adversary-emulation environment, where LMAs interact with instrumented cyber agents, observe execution artifacts, and iteratively adapt based on environmental feedback. Each scenario is formalized as an ordered task chain with explicit validation predicates, leveraging an LLM-as-a-Judge paradigm to ensure deterministic outcome verification. We compare three operational modalities: fully autonomous execution, self-scaffolded planning, and expert-defined action plans. Preliminary findings indicate that expert-defined action plans yield higher task-completion rates relative to other operational modes. However, failure remains frequent across all modalities, largely attributable to brittle command invocation, environmental and deployment instability, and recurring errors in credential management and state handling.
- Abstract(参考訳): 言語モデルエージェント(LMA)は、レッドチーム操作を増強するための強力なプリミティブとして現れている。
攻撃計画、敵エミュレーション、高度な永続的脅威(APT)キャンペーンのコア機能である横移動のような多段階の活動のオーケストレーションをサポートすることができる。
MITRE ATT&CKなどのフレームワークを用いて、これらのエージェントが中核的な攻撃機能とどのように交わるかを分析し、ガバナンスと現実的な評価に重点を置いて、LMAの現在の強みと限界を評価する。
制御された対向エミュレーション環境における2つの横移動シナリオに対して,LMAが計測されたサイバーエージェントと相互作用し,実行成果を観察し,環境フィードバックに基づいて反復的に適応する様子をベンチマークした。
各シナリオは、決定論的結果検証を保証するためにLLM-as-a-Judgeパラダイムを活用する、明示的な検証述語を備えた順序付きタスクチェーンとして形式化される。
完全に自律的な実行、自己スケーリングされた計画、専門家が定義したアクションプランの3つの運用モードを比較します。
予備的な知見は、専門家が定義した行動計画が他の運用モードと比較して高いタスク完了率をもたらすことを示している。
しかしながら、障害はコマンド呼び出しの不安定さ、環境およびデプロイメントの不安定性、クレデンシャル管理と状態処理における繰り返しエラーに起因するため、すべてのモダリティで頻繁に発生する。
関連論文リスト
- FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Benchmarking LLMs in an Embodied Environment for Blue Team Threat Hlunting [14.810934670172479]
大きな言語モデル(LLM)は、脅威分析を強化するための有望な機能を提供する。
実際のブルーチームの脅威追跡シナリオにおけるそれらの効果は、まだ十分に調査されていない。
青のチームリングでLLMをガイドするベンチマークであるCYBERTEAMを提示する。
論文 参考訳(メタデータ) (2025-05-17T08:33:50Z) - SagaLLM: Context Management, Validation, and Transaction Guarantees for Multi-Agent LLM Planning [2.1331883629523634]
SagaLLMは、現在のLLMベースの計画システムの4つの基本的な制限に対処するために設計された構造化マルチエージェントアーキテクチャである。
Sagaトランザクションパターンを永続メモリ、自動補償、独立バリデーションエージェントに統合することで、このギャップを埋める。
不確実性の下では、一貫性、検証精度、適応調整において大幅な改善が達成される。
論文 参考訳(メタデータ) (2025-03-15T01:43:03Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - DynaSaur: Large Language Agents Beyond Predefined Actions [126.98162266986554]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。
動作を動的に生成・構成できるLLMエージェントフレームワークを提案する。
このフレームワークでは、汎用プログラミング言語で書かれたプログラムを生成し実行することで、エージェントが環境と対話する。
論文 参考訳(メタデータ) (2024-11-04T02:08:59Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。