論文の概要: AJAR: Adaptive Jailbreak Architecture for Red-teaming
- arxiv url: http://arxiv.org/abs/2601.10971v1
- Date: Fri, 16 Jan 2026 03:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.349022
- Title: AJAR: Adaptive Jailbreak Architecture for Red-teaming
- Title(参考訳): AJAR: レッドチームのための適応型ジェイルブレイクアーキテクチャ
- Authors: Yipu Dou, Wang Yang,
- Abstract要約: AJARは概念実証フレームワークであり、"赤チーム"と"アクションセキュリティ"のギャップを埋めるように設計されている。
AJARは実行ループから逆ロジックを分離し、X-Teamingのような最先端のアルゴリズムを標準化されたプラグイン・アンド・プレイサービスとしてカプセル化する。
AJARは、この出現する攻撃面の標準化された環境対応評価を容易にするために、オープンソース化されている。
- 参考スコア(独自算出の注目度): 1.356919241968803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from static chatbots into autonomous agents capable of tool execution, the landscape of AI safety is shifting from content moderation to action security. However, existing red-teaming frameworks remain bifurcated: they either focus on rigid, script-based text attacks or lack the architectural modularity to simulate complex, multi-turn agentic exploitations. In this paper, we introduce AJAR (Adaptive Jailbreak Architecture for Red-teaming), a proof-of-concept framework designed to bridge this gap through Protocol-driven Cognitive Orchestration. Built upon the robust runtime of Petri, AJAR leverages the Model Context Protocol (MCP) to decouple adversarial logic from the execution loop, encapsulating state-of-the-art algorithms like X-Teaming as standardized, plug-and-play services. We validate the architectural feasibility of AJAR through a controlled qualitative case study, demonstrating its ability to perform stateful backtracking within a tool-use environment. Furthermore, our preliminary exploration of the "Agentic Gap" reveals a complex safety dynamic: while tool usage introduces new injection vectors via code execution, the cognitive load of parameter formatting can inadvertently disrupt persona-based attacks. AJAR is open-sourced to facilitate the standardized, environment-aware evaluation of this emerging attack surface. The code and data are available at https://github.com/douyipu/ajar.
- Abstract(参考訳): 大規模言語モデル(LLM)が静的チャットボットからツール実行が可能な自律エージェントへと進化するにつれ、AIの安全性はコンテンツモデレーションからアクションセキュリティへと変化しつつある。
しかし、既存のレッドチームフレームワークは、厳格でスクリプトベースのテキスト攻撃に焦点を当てるか、複雑なマルチターンエージェント攻撃をシミュレートするアーキテクチャのモジュール性が欠如している。
本稿では,AJAR(Adaptive Jailbreak Architecture for Red-teaming)を紹介する。
Petriの堅牢なランタイム上に構築されたAJARは、モデルコンテキストプロトコル(MCP)を利用して、実行ループから逆ロジックを分離し、X-Teamingのような最先端のアルゴリズムを標準化されたプラグイン・アンド・プレイサービスとしてカプセル化する。
定性的ケーススタディにより,AJARのアーキテクチャ実現可能性を検証するとともに,ツール使用環境におけるステートフルなバックトラック機能を示す。
さらに、"Agentic Gap"に関する予備的な調査では、複雑な安全性のダイナミクスが明らかにされている。ツールの使用は、コード実行を通じて新しいインジェクションベクターを導入しますが、パラメータフォーマッティングの認知負荷は、ペルソナベースの攻撃を不注意に妨害します。
AJARは、この出現する攻撃面の標準化された環境対応評価を容易にするために、オープンソース化されている。
コードとデータはhttps://github.com/douyipu/ajar.comで公開されている。
関連論文リスト
- Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。
大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。
その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文 参考訳(メタデータ) (2025-12-29T14:06:09Z) - Monadic Context Engineering [59.95390010097654]
本稿では,エージェント設計の正式な基盤を提供するために,モナディックコンテキストエンジニアリング(MCE)を紹介する。
我々は、モナドがロバストなコンポジションをどのように実現し、Applicativesが並列実行に原則化された構造を提供し、また、モナドトランスフォーマーがこれらの機能の体系的なコンポジションをどのように可能にしているかを実証する。
この階層化されたアプローチにより、開発者は、単純で独立した検証可能なコンポーネントから、複雑でレジリエントで効率的なAIエージェントを構築することができる。
論文 参考訳(メタデータ) (2025-12-27T01:52:06Z) - Hiding in the AI Traffic: Abusing MCP for LLM-Powered Agentic Red Teaming [0.0]
本稿では,モデルコンテキストプロトコル(MCP)を利用した新しいコマンド・アンド・コントロール(C2)アーキテクチャを導入し,適応型偵察エージェントを網羅的に協調する。
私たちのアーキテクチャは、システム全体のゴール指向の振る舞いを改善するだけでなく、コマンドとコントロールの振る舞いを完全に検出および防止するために使用できる主要なホストやネットワークアーティファクトを排除します。
論文 参考訳(メタデータ) (2025-11-20T02:51:04Z) - AgentCyTE: Leveraging Agentic AI to Generate Cybersecurity Training & Experimentation Scenarios [0.19999259391104388]
本稿では,大規模言語モデルと決定論的・スキーマ制約付きネットワークエミュレーションを統合したフレームワークであるAgentCyTEを提案する。
AgentCyTEはシナリオの結果を観察し、正確性を検証し、リアリズムと一貫性を反復的に強化する。
論文 参考訳(メタデータ) (2025-10-29T05:44:12Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [81.73540246946015]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents [7.4159044558995335]
動的コンテキスト管理システムとコード生成を統合する新しいフレームワークであるMOSS(llM-oriented Operating System Simulation)を紹介する。
フレームワークの中核は、最小限の知識原則を強制するために、インバージョン・オブ・コントロールコンテナとデコレータを併用する。
我々は,このフレームワークがエージェント開発における効率性と能力をいかに向上させるかを示し,チューリング完全エージェントへの移行におけるその優位性を強調した。
論文 参考訳(メタデータ) (2024-09-24T14:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。