論文の概要: Linearly Decoding Refused Knowledge in Aligned Language Models
- arxiv url: http://arxiv.org/abs/2507.00239v1
- Date: Mon, 30 Jun 2025 20:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.751588
- Title: Linearly Decoding Refused Knowledge in Aligned Language Models
- Title(参考訳): 言語モデルにおける再利用知識の線形復号化
- Authors: Aryan Shrivastava, Ari Holtzman,
- Abstract要約: 本研究では,隠蔽状態に訓練された線形プローブを用いて,ジェイルブレイクプロンプトを介してアクセスされる情報がどのようにデオード可能かを調べた。
驚くべきことに、ベースモデルでトレーニングされたプローブ(拒否しない)が、時々命令調整されたバージョンに転送されることがある。
- 参考スコア(独自算出の注目度): 12.157282291589095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most commonly used language models (LMs) are instruction-tuned and aligned using a combination of fine-tuning and reinforcement learning, causing them to refuse users requests deemed harmful by the model. However, jailbreak prompts can often bypass these refusal mechanisms and elicit harmful responses. In this work, we study the extent to which information accessed via jailbreak prompts is decodable using linear probes trained on LM hidden states. We show that a great deal of initially refused information is linearly decodable. For example, across models, the response of a jailbroken LM for the average IQ of a country can be predicted by a linear probe with Pearson correlations exceeding $0.8$. Surprisingly, we find that probes trained on base models (which do not refuse) sometimes transfer to their instruction-tuned versions and are capable of revealing information that jailbreaks decode generatively, suggesting that the internal representations of many refused properties persist from base LMs through instruction-tuning. Importantly, we show that this information is not merely "leftover" in instruction-tuned models, but is actively used by them: we find that probe-predicted values correlate with LM generated pairwise comparisons, indicating that the information decoded by our probes align with suppressed generative behavior that may be expressed more subtly in other downstream tasks. Overall, our results suggest that instruction-tuning does not wholly eliminate or even relocate harmful information in representation space-they merely suppress its direct expression, leaving it both linearly accessible and indirectly influential in downstream behavior.
- Abstract(参考訳): 最も一般的に使われている言語モデル(LM)は、微調整と強化学習を組み合わせた命令調整と整列であり、モデルによって有害とされるユーザの要求を拒否する。
しかし、ジェイルブレイクのプロンプトは、しばしばこれらの拒絶機構を回避し、有害な反応を引き起こす。
本研究では,LM隠れ状態に基づいてトレーニングされた線形プローブを用いて,ジェイルブレイクプロンプトを介してアクセスされる情報がどのようにデオード可能かを調べた。
当初拒否された大量の情報が線形デオード可能であることを示す。
例えば、ある国の平均IQに対するジェイルブレイクLMの応答は、ピアソン相関が0.8ドルを超える線形プローブによって予測できる。
意外なことに、ベースモデル(拒否しない)で訓練されたプローブは、時々命令チューニングされたバージョンに転送され、ジェイルブレイクが生成的にデコードする情報を明らかにすることができ、多くの拒否されたプロパティの内部表現が、命令チューニングを通じてベースLMから持続することを示す。
重要なことは、この情報は単に命令調整されたモデルにおいて「余剰」であるだけでなく、それらによって積極的に使用されることを示し、プローブ予測値がLM生成したペアワイド比較と相関していること、また、プローブによって復号された情報は、他の下流タスクでより微妙に表現される可能性のある抑圧された生成行動と一致していることを示す。
全体として、命令チューニングは、表現空間において有害な情報を完全に取り除いたり、移動させたりすることすらせず、単に直接表現を抑えるだけで、下流の行動に線形にアクセス可能で間接的に影響を及ぼすことを示唆している。
関連論文リスト
- Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs [19.08691637612329]
大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。
未学習のトレース検出という新たな脆弱性を特定します。
すべてのモデルサイズにわたる未学習トレースの検出において, 誤り関連プロンプトが90%以上の精度で可能であることを示す。
論文 参考訳(メタデータ) (2025-06-16T21:03:51Z) - Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。
我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。
これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文 参考訳(メタデータ) (2025-05-29T15:33:39Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。