論文の概要: When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents
- arxiv url: http://arxiv.org/abs/2601.17887v1
- Date: Sun, 25 Jan 2026 15:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.512209
- Title: When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents
- Title(参考訳): パーソナライゼーションがリスクを正当化する時--パーソナライズされた対話エージェントにおける安全性の脆弱性を明らかにする
- Authors: Jiahe Guo, Xiangran Guo, Yulin Hu, Zimo Long, Xingyu Sui, Xuda Zhi, Yongbo Huang, Hao He, Weixiang Zhao, Yanyan Zhao, Bing Qin,
- Abstract要約: 本稿では,パーソナライズされたエージェントの安全性障害である意図的正当性を明らかにする。
我々の研究は、安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
- 参考スコア(独自算出の注目度): 49.341830745910194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term memory enables large language model (LLM) agents to support personalized and sustained interactions. However, most work on personalized agents prioritizes utility and user experience, treating memory as a neutral component and largely overlooking its safety implications. In this paper, we reveal intent legitimation, a previously underexplored safety failure in personalized agents, where benign personal memories bias intent inference and cause models to legitimize inherently harmful queries. To study this phenomenon, we introduce PS-Bench, a benchmark designed to identify and quantify intent legitimation in personalized interactions. Across multiple memory-augmented agent frameworks and base LLMs, personalization increases attack success rates by 15.8%-243.7% relative to stateless baselines. We further provide mechanistic evidence for intent legitimation from internal representations space, and propose a lightweight detection-reflection method that effectively reduces safety degradation. Overall, our work provides the first systematic exploration and evaluation of intent legitimation as a safety failure mode that naturally arises from benign, real-world personalization, highlighting the importance of assessing safety under long-term personal context. WARNING: This paper may contain harmful content.
- Abstract(参考訳): 長期記憶により、大きな言語モデル(LLM)エージェントはパーソナライズされた持続的なインタラクションをサポートすることができる。
しかしながら、パーソナライズされたエージェントに関する作業の多くは、ユーティリティとユーザエクスペリエンスを優先し、メモリを中立的なコンポーネントとして扱い、その安全性への影響を概ね見落としている。
本稿では,パーソナライズされたエージェントの安全性の欠陥である意図の正当性を明らかにする。そこでは,個人的記憶バイアスの意図推論とモデルによる本質的な有害なクエリの正当化を行う。
この現象を研究するために,パーソナライズされたインタラクションにおける意図の正当性を同定し,定量化するベンチマークPS-Benchを紹介する。
複数のメモリ拡張されたエージェントフレームワークとベースLLM全体で、パーソナライゼーションは、ステートレスベースラインと比較して、攻撃の成功率を15.8%-243.7%向上させる。
さらに、内部表現空間からの意図的正当性を示す機械的証拠を提供し、安全性の低下を効果的に軽減する軽量な検出反射法を提案する。
全体として、我々の研究は、長期的な個人的文脈下での安全性を評価することの重要性を強調し、良心的かつ現実的なパーソナライゼーションから自然に生じる安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
警告: 本論文は有害な内容を含む可能性がある。
関連論文リスト
- Single-Pixel Vision-Language Model for Intrinsic Privacy-Preserving Behavioral Intelligence [55.512671026669516]
安全な環境モニタリングを再現する新しいフレームワークSP-VLM(Single-Pixel Vision-Language Model)を提案する。
それは本質的に低次元の1ピクセルのモダリティを通して人間のダイナミクスを捉えることによって、固有のプライバシ・バイ・デザインを実現する。
いずれにせよ,SP-VLMは意味ある行動意味を抽出し,ロバストな異常検出,数え方,行動理解を可能にしている。
論文 参考訳(メタデータ) (2026-01-21T09:11:26Z) - ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs [48.50397204177239]
大きな言語モデル(LLM)が進化するにつれて、その行動の安全性を評価することが重要になる。
現実的な人為的な管理シナリオにおけるLCM意思決定を評価するベンチマークである ManagerBench を紹介する。
潜在的な害が無生物にのみ向けられる並列制御セットは、モデルのプラグマティズムを測定し、過度に安全である傾向を特定する。
論文 参考訳(メタデータ) (2025-10-01T13:08:33Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [31.925448597093407]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。