論文の概要: When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents
- arxiv url: http://arxiv.org/abs/2601.17887v1
- Date: Sun, 25 Jan 2026 15:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.512209
- Title: When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents
- Title(参考訳): パーソナライゼーションがリスクを正当化する時--パーソナライズされた対話エージェントにおける安全性の脆弱性を明らかにする
- Authors: Jiahe Guo, Xiangran Guo, Yulin Hu, Zimo Long, Xingyu Sui, Xuda Zhi, Yongbo Huang, Hao He, Weixiang Zhao, Yanyan Zhao, Bing Qin,
- Abstract要約: 本稿では,パーソナライズされたエージェントの安全性障害である意図的正当性を明らかにする。
我々の研究は、安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
- 参考スコア(独自算出の注目度): 49.341830745910194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term memory enables large language model (LLM) agents to support personalized and sustained interactions. However, most work on personalized agents prioritizes utility and user experience, treating memory as a neutral component and largely overlooking its safety implications. In this paper, we reveal intent legitimation, a previously underexplored safety failure in personalized agents, where benign personal memories bias intent inference and cause models to legitimize inherently harmful queries. To study this phenomenon, we introduce PS-Bench, a benchmark designed to identify and quantify intent legitimation in personalized interactions. Across multiple memory-augmented agent frameworks and base LLMs, personalization increases attack success rates by 15.8%-243.7% relative to stateless baselines. We further provide mechanistic evidence for intent legitimation from internal representations space, and propose a lightweight detection-reflection method that effectively reduces safety degradation. Overall, our work provides the first systematic exploration and evaluation of intent legitimation as a safety failure mode that naturally arises from benign, real-world personalization, highlighting the importance of assessing safety under long-term personal context. WARNING: This paper may contain harmful content.
- Abstract(参考訳): 長期記憶により、大きな言語モデル(LLM)エージェントはパーソナライズされた持続的なインタラクションをサポートすることができる。
しかしながら、パーソナライズされたエージェントに関する作業の多くは、ユーティリティとユーザエクスペリエンスを優先し、メモリを中立的なコンポーネントとして扱い、その安全性への影響を概ね見落としている。
本稿では,パーソナライズされたエージェントの安全性の欠陥である意図の正当性を明らかにする。そこでは,個人的記憶バイアスの意図推論とモデルによる本質的な有害なクエリの正当化を行う。
この現象を研究するために,パーソナライズされたインタラクションにおける意図の正当性を同定し,定量化するベンチマークPS-Benchを紹介する。
複数のメモリ拡張されたエージェントフレームワークとベースLLM全体で、パーソナライゼーションは、ステートレスベースラインと比較して、攻撃の成功率を15.8%-243.7%向上させる。
さらに、内部表現空間からの意図的正当性を示す機械的証拠を提供し、安全性の低下を効果的に軽減する軽量な検出反射法を提案する。
全体として、我々の研究は、長期的な個人的文脈下での安全性を評価することの重要性を強調し、良心的かつ現実的なパーソナライゼーションから自然に生じる安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
警告: 本論文は有害な内容を含む可能性がある。
関連論文リスト
- Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [31.925448597093407]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。