論文の概要: Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.25179v1
- Date: Wed, 29 Oct 2025 05:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.092638
- Title: Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models
- Title(参考訳): エージェントモデレーション:サファービジョンランゲージモデルのためのマルチエージェント設計
- Authors: Juan Ren, Mark Dras, Usman Naseem,
- Abstract要約: 本稿では,Jailbreak攻撃に対するマルチモーダルシステムを保護するために,特殊エージェントを活用するモデル非依存フレームワークであるAgentic Moderationを紹介する。
提案手法は,攻撃成功率(ASR)を7-19%削減し,安定な非フォロー率(NF)を維持し,拒絶率(RR)を4-20%改善する。
エージェントアーキテクチャの柔軟性と推論能力を活用することで、Agentic Moderationはモジュール化され、スケーラブルで、きめ細かい安全対策を提供する。
- 参考スコア(独自算出の注目度): 17.28260523039769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic methods have emerged as a powerful and autonomous paradigm that enhances reasoning, collaboration, and adaptive control, enabling systems to coordinate and independently solve complex tasks. We extend this paradigm to safety alignment by introducing Agentic Moderation, a model-agnostic framework that leverages specialised agents to defend multimodal systems against jailbreak attacks. Unlike prior approaches that apply as a static layer over inputs or outputs and provide only binary classifications (safe or unsafe), our method integrates dynamic, cooperative agents, including Shield, Responder, Evaluator, and Reflector, to achieve context-aware and interpretable moderation. Extensive experiments across five datasets and four representative Large Vision-Language Models (LVLMs) demonstrate that our approach reduces the Attack Success Rate (ASR) by 7-19%, maintains a stable Non-Following Rate (NF), and improves the Refusal Rate (RR) by 4-20%, achieving robust, interpretable, and well-balanced safety performance. By harnessing the flexibility and reasoning capacity of agentic architectures, Agentic Moderation provides modular, scalable, and fine-grained safety enforcement, highlighting the broader potential of agentic systems as a foundation for automated safety governance.
- Abstract(参考訳): エージェント手法は、推論、協調、適応制御を強化する強力で自律的なパラダイムとして登場し、システムは複雑なタスクを協調し、独立して解決することができる。
我々は,このパラダイムを,Jailbreak攻撃からマルチモーダルシステムを守るために,特殊エージェントを活用するモデル非依存のフレームワークであるAgentic Moderationを導入することにより,安全アライメントに拡張する。
入力や出力に対して静的なレイヤとして適用され、バイナリ分類のみを提供する従来の手法とは異なり、我々の手法は、動的で協調的なエージェント(Shield、Responder、Evaluator、Reflectorなど)を統合し、コンテキスト認識および解釈可能なモデレーションを実現する。
5つのデータセットと4つの代表的なLVLM(Large Vision-Language Models)にわたる大規模な実験により、我々のアプローチはアタック成功率(ASR)を7-19%削減し、安定なノンフォローレート(NF)を維持し、リファリングレート(RR)を4-20%改善し、堅牢で解釈可能でバランスの取れた安全性能を実現している。
エージェントアーキテクチャの柔軟性と推論能力を活用することで、エージェントモデレーションはモジュール化され、スケーラブルで、きめ細かな安全対策を提供し、自動化された安全管理の基礎としてエージェントシステムの幅広い可能性を強調します。
関連論文リスト
- AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - MAD-PINN: A Decentralized Physics-Informed Machine Learning Framework for Safe and Optimal Multi-Agent Control [13.531665564516155]
大規模マルチエージェントシステムにおける安全性とパフォーマンスの最適化は、依然として根本的な課題である。
マルチエージェント状態制約最適制御問題を解くための分散機械学習フレームワークMAD-PINNを提案する。
マルチエージェントナビゲーションタスクの実験では、MAD-PINNは優れた安全性と性能のトレードオフを実現し、エージェントの数が増えるにつれてスケーラビリティを維持し、常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-28T16:31:22Z) - Extending the OWASP Multi-Agentic System Threat Modeling Guide: Insights from Multi-Agent Security Research [0.8057006406834466]
この研究は、最近のマルチエージェントセキュリティ(MASEC)の予測研究を、大規模言語モデル(LLM)駆動のマルチエージェントアーキテクチャに特有の課題に対処するための実践的なガイダンスに翻訳する。
我々は,実践的なMAS展開に根ざした新たな脅威クラスとシナリオを導入し,良心的目標ドリフト,クロスエージェント伝搬,情緒的プロンプトフレーミング,マルチエージェントバックドアのリスクを強調した。
この研究は、ますます複雑で自律的で適応的なマルチエージェントシステムに適用性を広げることによって、堅牢性の枠組みを補完する。
論文 参考訳(メタデータ) (2025-08-13T13:47:55Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training [0.5439020425819]
大規模言語モデル(LLM)は、多様なアプリケーションにまたがる顕著な機能を示しているが、重要なドメインへの安全なデプロイを脅かす重大なセキュリティリスクを伴っている。
本稿では,計算効率を維持しつつ,堅牢なセキュリティ保証を実現するために,自動化されたレッドチームと敵のトレーニングを活用する新しいPRMフリーセキュリティアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:41:12Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Learning Safe Multi-Agent Control with Decentralized Neural Barrier
Certificates [19.261536710315028]
エージェントが静的な障害物や衝突に対する衝突を避けて目標を達成すべきマルチエージェント安全制御問題について検討する。
私達の中心の考えは安全証明書として制御障壁機能を学ぶことと複数のエージェント制御方針を共同で学ぶことです。
本稿では,特定の関数クラスに対して一般化を保証し,分散的に実装可能な新しい共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-14T03:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。