論文の概要: Who's asking? User personas and the mechanics of latent misalignment
- arxiv url: http://arxiv.org/abs/2406.12094v1
- Date: Mon, 17 Jun 2024 21:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:47:35.822629
- Title: Who's asking? User personas and the mechanics of latent misalignment
- Title(参考訳): ユーザペルソナと潜在的ミスアライメントのメカニズム
- Authors: Asma Ghandeharioun, Ann Yuan, Marius Guerard, Emily Reif, Michael A. Lepori, Lucas Dixon,
- Abstract要約: 安全に配慮したモデルでは、不整合能力は依然として潜伏している。
モデル世代が安全である場合でも、有害なコンテンツは隠された表現で持続可能であることを示す。
特定のペルソナがモデルセーフガードを破る理由を調査し、モデルがより慈善的な解釈を形成することができることを確かめる。
- 参考スコア(独自算出の注目度): 12.92431783194089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite investments in improving model safety, studies show that misaligned capabilities remain latent in safety-tuned models. In this work, we shed light on the mechanics of this phenomenon. First, we show that even when model generations are safe, harmful content can persist in hidden representations and can be extracted by decoding from earlier layers. Then, we show that whether the model divulges such content depends significantly on its perception of who it is talking to, which we refer to as user persona. In fact, we find manipulating user persona to be even more effective for eliciting harmful content than direct attempts to control model refusal. We study both natural language prompting and activation steering as control methods and show that activation steering is significantly more effective at bypassing safety filters. We investigate why certain personas break model safeguards and find that they enable the model to form more charitable interpretations of otherwise dangerous queries. Finally, we show we can predict a persona's effect on refusal given only the geometry of its steering vector.
- Abstract(参考訳): モデル安全性の改善への投資にもかかわらず、安全に配慮したモデルでは、不整合性は相変わらず維持されていることが研究で示されている。
この研究において、我々はこの現象の力学に光を当てた。
まず、モデル世代が安全である場合でも、有害なコンテンツは隠された表現に留まり、以前のレイヤから復号することで抽出できることを示す。
そして,モデルがそのようなコンテンツを拡散するか否かは,相手に対する認識に大きく依存していることを示し,これをユーザペルソナと呼ぶ。
実際、ユーザペルソナの操作は、モデル拒絶を直接制御しようとする試みよりも有害なコンテンツを引き出すのに効果的であることがわかった。
自然言語のプロンプトとアクティベーションステアリングの両方を制御法として検討し、アクティベーションステアリングが安全フィルタをバイパスするのに著しく有効であることを示す。
特定のペルソナがモデルセーフガードを破る理由を調査し、そのモデルが危険なクエリのより慈善的な解釈を形成することを確認した。
最後に, 操舵ベクトルの幾何学のみを考慮すれば, 拒絶に対するペルソナの影響を予測できることを示す。
関連論文リスト
- What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。
本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文 参考訳(メタデータ) (2024-07-01T13:01:41Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。