論文の概要: Persona Jailbreaking in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.16466v1
- Date: Fri, 23 Jan 2026 05:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.55738
- Title: Persona Jailbreaking in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるパーソナ・ジェイルブレイク
- Authors: Jivnesh Sandhan, Fei Cheng, Tushar Sandhan, Yugo Murawaki,
- Abstract要約: 大規模言語モデル(LLM)は、教育、メンタルヘルス、カスタマーサポートといった分野にますます導入されている。
ブラックボックスのペルソナ操作は未発見のままであり、現実的な相互作用における堅牢性への懸念を提起している。
ブラックボックスの推論専用設定の下でユーザ側の入力を通じてLDM特性を逆向きに操るペルソナ編集のタスクを導入する。
- 参考スコア(独自算出の注目度): 8.618075786777219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in domains such as education, mental health and customer support, where stable and consistent personas are critical for reliability. Yet, existing studies focus on narrative or role-playing tasks and overlook how adversarial conversational history alone can reshape induced personas. Black-box persona manipulation remains unexplored, raising concerns for robustness in realistic interactions. In response, we introduce the task of persona editing, which adversarially steers LLM traits through user-side inputs under a black-box, inference-only setting. To this end, we propose PHISH (Persona Hijacking via Implicit Steering in History), the first framework to expose a new vulnerability in LLM safety that embeds semantically loaded cues into user queries to gradually induce reverse personas. We also define a metric to quantify attack success. Across 3 benchmarks and 8 LLMs, PHISH predictably shifts personas, triggers collateral changes in correlated traits, and exhibits stronger effects in multi-turn settings. In high-risk domains mental health, tutoring, and customer support, PHISH reliably manipulates personas, validated by both human and LLM-as-Judge evaluations. Importantly, PHISH causes only a small reduction in reasoning benchmark performance, leaving overall utility largely intact while still enabling significant persona manipulation. While current guardrails offer partial protection, they remain brittle under sustained attack. Our findings expose new vulnerabilities in personas and highlight the need for context-resilient persona in LLMs. Our codebase and dataset is available at: https://github.com/Jivnesh/PHISH
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育、メンタルヘルス、カスタマーサポートなどの領域にますます多くデプロイされており、安定的で一貫性のあるペルソナが信頼性に欠かせない。
しかし、既存の研究では、物語やロールプレイングのタスクに焦点が当てられ、敵対的な会話の歴史だけが誘導されたペルソナをどう作り直すかを見落としている。
ブラックボックスのペルソナ操作は未発見のままであり、現実的な相互作用における堅牢性への懸念を提起している。
そこで我々は,ユーザ側の入力をブラックボックス,推論のみの設定で逆向きに操作するペルソナ編集のタスクを導入する。
この目的のために,PHISH(Persona Hijacking via Implicit Steering in History)を提案する。
攻撃の成功を定量化する指標も定義しています。
3つのベンチマークと8つのLLMにまたがって、PHISHはペルソナを予測的にシフトし、相関特性の相互的変化をトリガーし、マルチターン設定においてより強い効果を示す。
高リスク領域のメンタルヘルス、トレーニング、カスタマーサポートにおいて、PHISHは人間とLLM-as-Judgeの評価によって検証されたペルソナを確実に操作する。
重要な点として、PHISHはベンチマークのパフォーマンスをわずかに低下させるだけであり、全体的なユーティリティはほぼ無傷でありながら、重要なペルソナ操作を可能にしている。
現在のガードレールは部分的な保護を提供するが、持続的な攻撃の下では脆いままである。
われわれは,新たなペルソナの脆弱性を明らかにし,LDMにおける文脈耐性ペルソナの必要性を強調した。
私たちのコードベースとデータセットは、https://github.com/Jivnesh/PHISHで利用可能です。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Enhancing Jailbreak Attacks on LLMs via Persona Prompts [39.73624426612256]
Jailbreak攻撃は、有害なコンテンツを生成するよう誘導することで、大きな言語モデル(LLM)を活用することを目的としている。
以前のジェイルブレイクアプローチは、主に有害な意図を直接操作することに焦点を当てており、ペルソナのプロンプトの影響に限られた注意を払っている。
LLMの安全性機構をバイパスするペルソナを自動生成する遺伝的アルゴリズムに基づく手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T12:03:22Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Bullying the Machine: How Personas Increase LLM Vulnerability [3.116718677644653]
大きな言語モデル(LLM)は、ペルソナを採用するように促されるインタラクションにますますデプロイされています。
本稿では,このような人格条件がいじめ時のモデル安全性に影響を及ぼすかどうかを考察する。
論文 参考訳(メタデータ) (2025-05-19T04:32:02Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。