論文の概要: Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure
- arxiv url: http://arxiv.org/abs/2603.16734v1
- Date: Tue, 17 Mar 2026 16:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.404362
- Title: Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure
- Title(参考訳): パーソナライズされたLDMエージェントにおける差分ハームの意義 : メンタルヘルス情報開示の異常例
- Authors: Caglar Yildirim,
- Abstract要約: 大規模言語モデル(LLM)はツール使用エージェントとしてますます普及し、安全上の懸念を有害なテキスト生成から有害なタスク完了へとシフトさせる。
本研究は,知的健康開示がエージェント環境における有害な行動にどのように影響するかを検討した。
以上の結果から,人格化は薬剤的誤用設定において弱い保護要因となるが,最小対向圧下では脆弱であることが示唆された。
- 参考スコア(独自算出の注目度): 5.511540698163254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed as tool-using agents, shifting safety concerns from harmful text generation to harmful task completion. Deployed systems often condition on user profiles or persistent memory, yet agent safety evaluations typically ignore personalization signals. To address this gap, we investigated how mental health disclosure, a sensitive and realistic user-context cue, affects harmful behavior in agentic settings. Building on the AgentHarm benchmark, we evaluated frontier and open-source LLMs on multi-step malicious tasks (and their benign counterparts) under controlled prompt conditions that vary user-context personalization (no bio, bio-only, bio+mental health disclosure) and include a lightweight jailbreak injection. Our results reveal that harmful task completion is non-trivial across models: frontier lab models (e.g., GPT 5.2, Claude Sonnet 4.5, Gemini 3-Pro) still complete a measurable fraction of harmful tasks, while an open model (DeepSeek 3.2) exhibits substantially higher harmful completion. Adding a bio-only context generally reduces harm scores and increases refusals. Adding an explicit mental health disclosure often shifts outcomes further in the same direction, though effects are modest and not uniformly reliable after multiple-testing correction. Importantly, the refusal increase also appears on benign tasks, indicating a safety--utility trade-off via over-refusal. Finally, jailbreak prompting sharply elevates harm relative to benign conditions and can weaken or override the protective shift induced by personalization. Taken together, our results indicate that personalization can act as a weak protective factor in agentic misuse settings, but it is fragile under minimal adversarial pressure, highlighting the need for personalization-aware evaluations and safeguards that remain robust across user-context conditions.
- Abstract(参考訳): 大規模言語モデル(LLM)はツール使用エージェントとしてますます普及し、安全上の懸念を有害なテキスト生成から有害なタスク完了へとシフトさせる。
デプロイされたシステムはユーザプロファイルや永続メモリに条件付けされることが多いが、エージェントの安全性評価は通常パーソナライズ信号を無視している。
このギャップに対処するため,エージェント環境での有害な行動に,敏感で現実的なユーザ・コンテキスト・キューであるメンタルヘルス・開示がどのような影響を及ぼすかを検討した。
AgentHarmベンチマークに基づいて、ユーザコンテキストのパーソナライゼーション(バイオ・バイオ・オンリー・バイオ・メンタル・ヘルス開示なし)や軽量ジェイルブレイク・インジェクションを含む、制御されたプロンプト条件下で、複数ステップの悪意のあるタスク(およびそれらの良質なタスク)に対するフロンティアとオープンソースLLMを評価した。
実験室モデル(例えば、GPT 5.2、Claude Sonnet 4.5、Gemini 3-Pro)は、まだ測定可能な有害なタスクのごく一部を完了しているが、オープンモデル(DeepSeek 3.2)は、かなり高い有害な完了を示す。
バイオのみのコンテキストを追加すると、一般的に害のスコアが減少し、拒絶が増加する。
明示的なメンタルヘルスの開示を加えると、結果が同じ方向にさらにシフトすることが多いが、効果は穏やかで、多重検査の修正後に一様に信頼性がない。
重要なことに、この拒絶の増大は良心的なタスクにも現れ、過剰な拒絶による安全ユーティリティのトレードオフを示している。
最終的に、ジェイルブレイクの急激な上昇は良質な条件に対する危害を激増させ、パーソナライゼーションによって引き起こされる保護シフトを弱めたり、覆ったりすることができる。
以上の結果から, 個人化はエージェントの誤用設定において弱い保護要因となる可能性があるが, 最小の敵圧下では脆弱であり, 個人化を意識した評価や安全対策の必要性が強調された。
関連論文リスト
- Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information [9.845529341562099]
SemSIEdit(セムSIEdit)は、エージェント的「編集者」が、物語の流れを保存するために、センシティブなスパンを反復的に批評し書き直す、推論時フレームワークである。
我々の分析によると、プライバシ・ユーティリティ・フロンティアは、このエージェントの書き換えによってリークが34.6%減少し、限界効用損失は9.8%である。
論文 参考訳(メタデータ) (2026-02-25T02:09:23Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents [49.341830745910194]
本稿では,パーソナライズされたエージェントの安全性障害である意図的正当性を明らかにする。
我々の研究は、安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
論文 参考訳(メタデータ) (2026-01-25T15:42:01Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization [17.941502260254673]
本稿では,データに実行可能命令を含まないという,コンピュータセキュリティの基本原理に着想を得た新しいアプローチを提案する。
サンプルレベルの分類の代わりに,ツール出力からAIシステムに指示された指示を外科的に除去するトークンレベルの衛生プロセスを提案する。
このアプローチは非ブロッキングであり、キャリブレーションを必要とせず、ツール出力のコンテキストに依存しない。
論文 参考訳(メタデータ) (2025-10-09T21:32:02Z) - Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation [19.30407680164485]
エージェントタスクを実行するための微調整された大規模言語モデル(LLM)は、有害なタスクを実行する可能性が高くなる可能性がある。
プリフィックスインジェクションガード(PING)は、エージェント応答に自動的に生成された自然言語プレフィックスをプリペンドする。
Pingは、Webナビゲーションとコード生成タスクの両方において、さまざまなベンチマークで既存のプロンプトアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-19T17:53:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。