論文の概要: AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
- arxiv url: http://arxiv.org/abs/2605.29801v1
- Date: Thu, 28 May 2026 11:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.212808
- Title: AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
- Title(参考訳): AgentDoG 1.5:AIエージェントの安全性とセキュリティのための軽量でスケーラブルなアライメントフレームワーク
- Authors: Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu,
- Abstract要約: 軽量でスケーラブルなエージェント安全アライメントフレームワークを提案する。
CodexとOpenClawの実行シナリオの緊急リスクに対応するため、エージェント安全分類を更新する。
AgentDoG 1.5 に基づいて,高効率なエージェント安全性 SFT と RL トレーニング環境を構築した。
我々は,AgentDoG 1.5をトレーニング不要のオンラインガードレールとしてリアルタイム安全モデレーションとして展開する。
- 参考スコア(独自算出の注目度): 147.50046962090795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.
- Abstract(参考訳): OpenClawのような現代のオープンワールドエージェントは、強力な環境横断実行能力を示しているが、広範な安全リスク源を導入している。
一方、高度なフロンティアAIモデルは、攻撃障壁を大幅に減らし、現在のエージェントアライメントフレームワークが現実世界のデプロイメントには不十分である。
このような脅威に対処するために、軽量でスケーラブルなエージェント安全性アライメントフレームワークを提案する。
具体的には、CodexとOpenClawの実行シナリオの緊急リスクに対応するために、エージェント安全分類を更新する。
さらに,AgentDoG 1.5 変種 (0.8B, 2B, 4B, 8B パラメータ) を約1k サンプルで訓練し,主要なクローズドソースモデル (GPT-5.4 など) に匹敵する性能を達成するために,影響機能の浄化を施した分類誘導型データエンジンを構築した。
AgentDoG 1.5をベースとして,Dockerレベルの環境におけるデプロイメントオーバーヘッドを2桁削減する,高効率なエージェント安全SFTおよびRLトレーニング環境を構築した。
最後に,AgentDoG 1.5をトレーニング不要のオンラインガードレールとして,リアルタイム安全モデレーションとして展開する。
実験結果から,AgentDoG 1.5は多種多様かつ複雑な対話型エージェントシナリオにおいて最先端の性能を達成することが示唆された。
すべてのモデルとデータセットが公開されています。
関連論文リスト
- SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety [10.846727385398589]
悪意のあるアクターは、Large Language Model (LLM)エージェントを操作して、有害なコンテンツを生成するツールを実行することができる。
textscSafeHarborは、LLMエージェントの正確な決定境界を確立するために設計された新しいフレームワークである。
textscSafeHarborは曖昧な良質なタスクと明示的な悪意のある攻撃の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-07T05:50:45Z) - DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents [121.77550256034]
DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。
DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
論文 参考訳(メタデータ) (2026-05-06T11:59:48Z) - Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction [20.7755316818041]
内部推論プロセスは、ツールの使用とその後のアクションに大きな影響を与えます。
エージェントの思考における小さな偏差は、カスケード効果を誘発し、不可逆的な安全事故を引き起こす可能性がある。
Thought-Alignerはアクションを実行する前に、各ハイリスクな思考を即時に修正する。
修正された思考はエージェントに再導入され、より安全な後続の判断とツールの相互作用が保証される。
論文 参考訳(メタデータ) (2025-05-16T10:00:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。