論文の概要: Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios
- arxiv url: http://arxiv.org/abs/2505.17735v1
- Date: Fri, 23 May 2025 10:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.014487
- Title: Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios
- Title(参考訳): リスクシナリオを考慮したLCMエージェントの安全性向上
- Authors: Xueyang Zhou, Weidong Wang, Lin Lu, Jiawen Shi, Guiyao Tie, Yongtian Xu, Lixing Chen, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun,
- Abstract要約: LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
- 参考スコア(独自算出の注目度): 77.86600052899156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents are increasingly deployed in real-world applications such as "digital assistants, autonomous customer service, and decision-support systems", where their ability to "interact in multi-turn, tool-augmented environments" makes them indispensable. However, ensuring the safety of these agents remains a significant challenge due to the diverse and complex risks arising from dynamic user interactions, external tool usage, and the potential for unintended harmful behaviors. To address this critical issue, we propose AutoSafe, the first framework that systematically enhances agent safety through fully automated synthetic data generation. Concretely, 1) we introduce an open and extensible threat model, OTS, which formalizes how unsafe behaviors emerge from the interplay of user instructions, interaction contexts, and agent actions. This enables precise modeling of safety risks across diverse scenarios. 2) we develop a fully automated data generation pipeline that simulates unsafe user behaviors, applies self-reflective reasoning to generate safe responses, and constructs a large-scale, diverse, and high-quality safety training dataset-eliminating the need for hazardous real-world data collection. To evaluate the effectiveness of our framework, we design comprehensive experiments on both synthetic and real-world safety benchmarks. Results demonstrate that AutoSafe boosts safety scores by 45% on average and achieves a 28.91% improvement on real-world tasks, validating the generalization ability of our learned safety strategies. These results highlight the practical advancement and scalability of AutoSafe in building safer LLM-based agents for real-world deployment. We have released the project page at https://auto-safe.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、"ディジタルアシスタント、自律的なカスタマーサービス、意思決定支援システム"といった現実世界のアプリケーションに、"マルチターン、ツール拡張された環境でのインタラクション"が不可欠であるように、ますます多くデプロイされている。
しかし、動的なユーザインタラクション、外部ツールの使用、意図しない有害な行動の可能性から生じる多様で複雑なリスクのため、これらのエージェントの安全性を確保することは依然として重大な課題である。
この重要な問題に対処するために、完全に自動化された合成データ生成によってエージェントの安全性を体系的に強化する最初のフレームワークであるAutoSafeを提案する。
具体的には
1) オープンで拡張可能な脅威モデルであるOTSを導入し,ユーザ命令,インタラクションコンテキスト,エージェントアクションの相互作用から,安全でない動作がどのように出現するかを定式化する。
これにより、さまざまなシナリオにわたる安全性リスクの正確なモデリングが可能になる。
2) 安全でないユーザの振る舞いをシミュレートし, 安全な応答を生成するための自己反射推論を適用し, 有害な実世界のデータ収集の必要性を解消する大規模で多種多様で高品質な安全訓練データセットを構築する, 完全自動データ生成パイプラインを開発した。
本フレームワークの有効性を評価するため,我々は,総合的および実環境安全ベンチマークの総合的な実験を設計した。
その結果、AutoSafeは安全性スコアを平均45%向上させ、現実世界のタスクを28.91%改善し、学習した安全戦略の一般化能力を検証した。
これらの結果は、より安全なLLMベースのエージェントの構築において、AutoSafeの実用的進歩とスケーラビリティを強調している。
プロジェクトページはhttps://auto-safe.github.io/で公開しています。
関連論文リスト
- SafeCast: Risk-Responsive Motion Forecasting for Autonomous Vehicles [12.607007386467329]
リスク応答型モーション予測モデルであるSafeCastを提案する。
安全を意識した意思決定と不確実性を意識した適応性を統合する。
我々のモデルは、軽量なアーキテクチャと低推論レイテンシを維持しながら、最先端(SOTA)の精度を実現する。
論文 参考訳(メタデータ) (2025-03-28T15:38:21Z) - SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models [14.790308656087316]
SafeDriveは、自律運転の安全性と適応性を高めるための、知識とデータ駆動型リスクに敏感な意思決定フレームワークである。
知識駆動型洞察と適応学習機構を統合することにより、不確実な条件下での堅牢な意思決定を保証する。
論文 参考訳(メタデータ) (2024-12-17T16:45:27Z) - Don't Let Your Robot be Harmful: Responsible Robotic Manipulation [57.70648477564976]
ロボット操作における人間の指示の実行は、深刻な安全性のリスクにつながる可能性がある。
i) 安全リスクを含むシナリオを自動生成し、仮想的なインタラクションを行う世界モデルと、(ii) 反射による結果を予測するメンタルモデルを含む。
本研究は, 安全行政がリスクを回避し, 合成データセットと実世界の両方の実験において, 効率的にタスクを完了できることを実証する。
論文 参考訳(メタデータ) (2024-11-27T12:27:50Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。