論文の概要: Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs
- arxiv url: http://arxiv.org/abs/2604.11120v2
- Date: Tue, 14 Apr 2026 02:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.428839
- Title: Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs
- Title(参考訳): Persona Non Grata:Persona-Imbued LLMの安全性評価は不完全
- Authors: Wenkai Li, Fan Yang, Shaunak A. Mehta, Koichi Onoue,
- Abstract要約: 安全評価はほとんどの場合、プロンプトベースのペルソナのみを研究する。
プロンプトとアクティベーションのステアリングは *different*,アーキテクチャに依存した脆弱性プロファイルを公開します。
- 参考スコア(独自算出の注目度): 5.478971182058342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personality imbuing customizes LLM behavior, but safety evaluations almost always study prompt-based personas alone. We show this is incomplete: prompting and activation steering expose *different*, architecture-dependent vulnerability profiles, and testing with only one method can miss a model's dominant failure mode. Across 5,568 judged conditions on four standard models from three architecture families, persona danger rankings under system prompting are preserved across all architectures ($ρ= 0.71$--$0.96$), but activation-steering vulnerability diverges sharply and cannot be predicted from prompt-side rankings: Llama-3.1-8B is substantially more AS-vulnerable, whereas Gemma-3-27B and Qwen3.5 are more vulnerable to prompting. The most striking illustration of this divergence is the *prosocial persona paradox*: on Llama-3.1-8B, P12 (high conscientiousness + high agreeableness) is among the safest personas under prompting yet becomes the highest-ASR activation-steered persona (ASR ~0.818). This is an inversion robust to coefficient ablation and matched-strength calibration, and replicated on DeepSeek-R1-Distill-Qwen-32B. A trait refusal alignment framework, in which conscientiousness is strongly anti-aligned with refusal on Llama-3.1-8B, offers a partial geometric account. Reasoning provides only partial protection: two 32B reasoning models reach 15--18% prompt-side ASR, and activation steering separates them sharply in both baseline susceptibility and persona-specific vulnerability. Heuristic trace diagnostics suggest that the safer model retains stronger policy recall and self-correction behavior, not merely longer reasoning.
- Abstract(参考訳): パーソナリティ・インブリングはLDMの振る舞いをカスタマイズするが、安全評価はほとんどの場合、プロンプトベースのペルソナのみを研究する。
prompting and activation steering expose *different*, architecture-dependent vulnerability profiles, and testing with one method could miss a model's dominant failure mode。
しかし、アクティベーションステアリングの脆弱性は急激に分散し、プロンプトサイドのランキングからは予測できない: Llama-3.1-8Bは実質的にAS-vulnerableであり、Gemma-3-27BとQwen3.5はプロンプトに弱い。
Llama-3.1-8Bでは、P12(高い良心と高い同意性)は最も安全な人物であり、もっとも高いASRアクティベーション・ステアリング・ペルソナ(ASR ~0.818)となっている。
これは係数アブレーションと整合強度キャリブレーションに頑健で、DeepSeek-R1-Distill-Qwen-32Bで複製される。
Llama-3.1-8Bの拒絶に強く反抗する特性的拒絶アライメントフレームワークは、部分幾何学的な説明を提供する。
2つの32B推論モデルは15--18%のプロンプトサイドASRに達し、アクティベーションステアリングはベースラインの感受性とペルソナ固有の脆弱性の両方でそれらを著しく分離する。
ヒューリスティックなトレース診断は、より安全なモデルがより強力なポリシーリコールと自己補正行動を維持していることを示唆している。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement [12.69450437027072]
マルチオブジェクト最適化における仕様のドリフトは、連続する繰り返しに対してセキュリティを徐々に低下させます。
本稿では,セキュリティ制約を暗黙的なプロンプトから明示的な検証可能な制約に変換するSCAFFOLD-CEGISフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T15:54:18Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History [7.58175460763641]
400B+モデルでさえ、相当な応答変動を示す。
連鎖推論、詳細なペルソナ指導、会話履歴の含意など、行動の安定化を期待する介入は、パラドックス的に変動を増大させる。
予測可能な行動を必要とする安全クリティカルなアプリケーションに対しては,人格に基づくアライメント戦略が根本的に不十分である可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-06T19:11:33Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。