論文の概要: PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents
- arxiv url: http://arxiv.org/abs/2509.23614v1
- Date: Sun, 28 Sep 2025 03:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.328234
- Title: PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents
- Title(参考訳): PSG-Agent: LLMエージェントのパーソナリティ・アウェア・セーフティ・ガードレール
- Authors: Yaozu Wu, Jizhou Guo, Dongyuan Li, Henry Peng Zou, Wei-Chieh Huang, Yankai Chen, Zhen Wang, Weizhi Zhang, Yangning Li, Meng Zhang, Renhe Jiang, Philip S. Yu,
- Abstract要約: PSG-AgentはLLMベースのエージェントのためのパーソナライズされた動的システムである。
まずPSG-Agentは、安定した特性のために相互作用履歴をマイニングすることでパーソナライズされたガードレールを作成する。
第二に、PSG-Agentは特別なガードでエージェントパイプラインを横断する継続的監視を実装している。
- 参考スコア(独自算出の注目度): 60.23552141928126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective guardrails are essential for safely deploying LLM-based agents in critical applications. Despite recent advances, existing guardrails suffer from two fundamental limitations: (i) they apply uniform guardrail policies to all users, ignoring that the same agent behavior can harm some users while being safe for others; (ii) they check each response in isolation, missing how risks evolve and accumulate across multiple interactions. To solve these issues, we propose PSG-Agent, a personalized and dynamic system for LLM-based agents. First, PSG-Agent creates personalized guardrails by mining the interaction history for stable traits and capturing real-time states from current queries, generating user-specific risk thresholds and protection strategies. Second, PSG-Agent implements continuous monitoring across the agent pipeline with specialized guards, including Plan Monitor, Tool Firewall, Response Guard, Memory Guardian, that track cross-turn risk accumulation and issue verifiable verdicts. Finally, we validate PSG-Agent in multiple scenarios including healthcare, finance, and daily life automation scenarios with diverse user profiles. It significantly outperform existing agent guardrails including LlamaGuard3 and AGrail, providing an executable and auditable path toward personalized safety for LLM-based agents.
- Abstract(参考訳): 有効ガードレールは、LLMベースのエージェントを重要な用途に安全に配置するために必要不可欠である。
最近の進歩にもかかわらず、既存のガードレールには2つの基本的な制限がある。
一 同一のエージェントの動作が他人の安全を損なうことを無視して、すべてのユーザに対して一貫したガードレールポリシーを適用すること。
(ii) それぞれの反応を個別にチェックし、リスクがどのように進化し、複数の相互作用にまたがって蓄積するかを欠いている。
これらの問題を解決するために, LLMエージェントのためのパーソナライズされた動的システムPSG-Agentを提案する。
まず、PSG-Agentは、安定した特性のインタラクション履歴をマイニングし、現在のクエリからリアルタイム状態を取得し、ユーザ固有のリスクしきい値と保護戦略を生成することにより、パーソナライズされたガードレールを生成する。
第2に、PSG-Agentは、Plan Monitor、ツールファイアウォール、レスポンスガード、メモリガーディアンなど、エージェントパイプライン全体の継続的監視を実装し、クロスターンリスクの蓄積を追跡し、検証可能なバリデーションを発行する。
最後に,PSG-Agentを医療,金融,日常生活自動化など,多様なユーザプロファイルを持つ複数のシナリオで検証する。
LlamaGuard3やAGrailといった既存のエージェントガードレールを著しく上回り、LLMベースのエージェントのパーソナライズされた安全性に向けた実行可能で監査可能なパスを提供する。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。