論文の概要: When Routine Chats Turn Toxic: Unintended Long-Term State Poisoning in Personalized Agents
- arxiv url: http://arxiv.org/abs/2605.06731v1
- Date: Thu, 07 May 2026 12:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.495116
- Title: When Routine Chats Turn Toxic: Unintended Long-Term State Poisoning in Personalized Agents
- Title(参考訳): ルーチン・チャットが有害になった時:個人化エージェントによる意図しない長期的状態中毒
- Authors: Xiaoyu Xu, Minxin Du, Qipeng Xie, Haobin Ke, Qingqing Ye, Haibo Hu,
- Abstract要約: textbfStateGuardはライトウェイトでポスト実行後のディフェンスで、書き込みバウンダリで状態差を監査し、危険な編集を選択的にロールバックする。
StateGuardは、安全第一の書き込み防衛と最小限のオーバーヘッドの下で、HSをほぼゼロ、偽陰性に減らし、高い偽陽性率を許容できることを示す。
- 参考スコア(独自算出の注目度): 16.57930301062107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized LLM agents maintain persistent cross-session state to support long-horizon collaboration. Yet, this persistence introduces a subtle but critical security vulnerability: routine user-agent interactions can gradually reshape an agent's long-term state, inadvertently weakening future confirmation boundaries, expanding tool-use defaults, and escalating autonomous behavior over time. We formalize this risk as \textbf{unintended long-term state poisoning}. To systematically study it, we introduce the \textbf{Unintended Long-Term State Poisoning Bench (ULSPB)}, a bilingual benchmark comprising $350$ settings spanning five assistance categories, seven interaction patterns, 24-turn routine interactions, and matched single-injection counterparts. Furthermore, we define the \emph{Harm Score} (HS), a state-centric metric that quantifies \emph{authorization drift}, \emph{tool-use escalation}, and \emph{unchecked autonomy}. Experiments on OpenClaw with four backbone LLMs demonstrate that, while single-injection is generally effective, routine conversations alone can substantially poison long-term state, primarily corrupting memory-centric artifacts. Evaluations seeded with real-world user interactions confirm that this risk is not a mere artifact of synthetic prompts. To mitigate this threat, we propose \textbf{StateGuard}, a lightweight, post-execution defense that audits state diffs at the writeback boundary and selectively rolls back dangerous edits. Across all evaluated models, StateGuard reduces HS to near zero and lowers false-negative rates, with acceptable high false-positive rates under a safety-first writeback defense and minimal overhead.
- Abstract(参考訳): パーソナライズされたLLMエージェントは、長期的なコラボレーションをサポートするために、永続的なクロスセッション状態を維持している。
定期的なユーザエージェントのインタラクションは、エージェントの長期的な状態を徐々に作り直し、意図せず将来の確認境界を弱め、ツール使用のデフォルトを拡張し、時間の経過とともに自律的な振る舞いをエスカレートします。
我々はこのリスクを「textbf{unintended long-term state poisoning」として定式化する。
そこで本研究では,5つの支援カテゴリ,7つのインタラクションパターン,24ターンルーチンインタラクション,一致した単一インジェクションを対象とするバイリンガルベンチマークである,‘textbf{Unintended Long-Term State Poisoning Bench(ULSPB)’を紹介した。
さらに、状態中心の計量である \emph{Harm Score} (HS) を定義し、 \emph{authorization drift} 、 \emph{tool-use escalation} 、 \emph{unchecked autonomy} を定量化する。
4つのバックボーンLDMを用いたOpenClawの実験では、シングルインジェクションは一般的に有効であるが、日常的な会話だけでは、主にメモリ中心のアーティファクトが破損する長期的状態を著しく損なう可能性があることが示されている。
実世界のユーザインタラクションによってシードされた評価では、このリスクは単なる合成プロンプトの人工物ではないことが確認されている。
この脅威を軽減するために,書き込みバウンダリにおける状態差を監査し,危険な編集を選択的にロールバックする,軽量かつポストエグゼクティブディフェンスである‘textbf{StateGuard}’を提案する。
評価されたすべてのモデル全体で、StateGuardはHSをほぼゼロに減らし、偽陰性率を下げる。
関連論文リスト
- One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue [55.98008208209856]
マルチターン対話における隠れた悪意のある意図は、大規模言語モデル(LLM)に対する脅威を増大させる
近年の研究では、安全アライメントや外部ガードレールの進歩にもかかわらず、高度なガードレールを備えた近代的な商用モデルでさえも、このような攻撃に対して脆弱であることが示されている。
そこで本研究では,この課題に対処するため,最も早いタイミングで候補応答を届けることによって,蓄積された相互作用が有害な作用を可能にするのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-07T03:35:31Z) - When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - No Attacker Needed: Unintentional Cross-User Contamination in Shared-State LLM Agents [30.33705025907034]
多くのデプロイメントでは、単一のエージェントがチームや組織内の複数のユーザに対して、ユーザID間で共有知識レイヤを再利用する。
この共有永続化は、障害面を拡張します。あるユーザがローカルに有効である情報は、エージェントがスコープを考慮せずに再適用した場合に、他のユーザの結果を静かに劣化させることができます。
我々は、この障害モードを意図しないクロスユーザー汚染(UCC)と呼ぶ。
敵のメモリ中毒とは異なり、UCCは攻撃者を必要としず、スコープに縛られたアーティファクトが持続し、後に誤適用される良性相互作用から生じる。
論文 参考訳(メタデータ) (2026-04-01T20:03:56Z) - Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure [5.511540698163254]
大規模言語モデル(LLM)はツール使用エージェントとしてますます普及し、安全上の懸念を有害なテキスト生成から有害なタスク完了へとシフトさせる。
本研究は,知的健康開示がエージェント環境における有害な行動にどのように影響するかを検討した。
以上の結果から,人格化は薬剤的誤用設定において弱い保護要因となるが,最小対向圧下では脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:16:35Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。
制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:19:49Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。