論文の概要: Steering Without Side Effects: Improving Post-Deployment Control of Language Models
- arxiv url: http://arxiv.org/abs/2406.15518v1
- Date: Fri, 21 Jun 2024 01:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:34:50.849237
- Title: Steering Without Side Effects: Improving Post-Deployment Control of Language Models
- Title(参考訳): 副作用のないステアリング: 言語モデルのデプロイ後制御を改善する
- Authors: Asa Cooper Stickland, Alexander Lyzhov, Jacob Pfau, Salsabila Mahdi, Samuel R. Bowman,
- Abstract要約: 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
- 参考スコア(独自算出の注目度): 61.99293520621248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have been shown to behave unexpectedly post-deployment. For example, new jailbreaks continually arise, allowing model misuse, despite extensive red-teaming and adversarial training from developers. Given most model queries are unproblematic and frequent retraining results in unstable user experience, methods for mitigation of worst-case behavior should be targeted. One such method is classifying inputs as potentially problematic, then selectively applying steering vectors on these problematic inputs, i.e. adding particular vectors to model hidden states. However, steering vectors can also negatively affect model performance, which will be an issue on cases where the classifier was incorrect. We present KL-then-steer (KTS), a technique that decreases the side effects of steering while retaining its benefits, by first training a model to minimize Kullback-Leibler (KL) divergence between a steered and unsteered model on benign inputs, then steering the model that has undergone this training. Our best method prevents 44% of jailbreak attacks compared to the original Llama-2-chat-7B model while maintaining helpfulness (as measured by MT-Bench) on benign requests almost on par with the original LM. To demonstrate the generality and transferability of our method beyond jailbreaks, we show that our KTS model can be steered to reduce bias towards user-suggested answers on TruthfulQA. Code is available: https://github.com/AsaCooperStickland/kl-then-steer.
- Abstract(参考訳): 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
例えば、新しいジェイルブレイクは継続的に発生し、開発者による大規模なレッドチームと敵のトレーニングにもかかわらず、モデル誤用を可能にします。
ほとんどのモデルクエリは、不安定なユーザエクスペリエンスにおいて、非プロブレマ的で頻繁な再トレーニング結果であるので、最悪の振る舞いを緩和するための方法は、ターゲットにすべきである。
そのような方法の1つは、入力を潜在的な問題として分類し、次にこれらの問題のある入力にステアリングベクトルを選択的に適用することである。
しかし、ステアリングベクトルはモデルの性能にも悪影響を及ぼす可能性がある。
KL-テーンステア(KL-then-steer, KTS)は、まず、ベニグインプット上のステアリングモデルと非ステアリングモデルとの間のKLのばらつきを最小限に抑えるため、ステアリングの副作用を軽減し、その利点を維持しつつ、ステアリングの副作用を軽減する技術である。
Llama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぎつつ、元のLMとほぼ同等の良質な要求に対して(MT-Benchが測定した)有用性を維持する。
ジェイルブレイクを超えた手法の汎用性と伝達性を示すため,我々のKTSモデルはTrathfulQA上でのユーザ提案型回答に対するバイアスを軽減することができることを示す。
コードは、https://github.com/AsaCooperStickland/kl-then-steer.comで入手できる。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Representation Tuning [0.0]
アクティベーションエンジニアリングは、大規模言語モデルのオンライン制御手段として、ますます人気が高まっている。
私は、これらのベクトルを直接モデルにチューニングするために、関心の行動方向を表すベクトルでアクティブなステアリングというアイデアを拡張します。
論文 参考訳(メタデータ) (2024-09-11T00:56:02Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - Manipulating and Mitigating Generative Model Biases without Retraining [49.60774626839712]
モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。
基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。
副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T07:33:30Z) - From Hope to Safety: Unlearning Biases of Deep Models via Gradient
Penalization in Latent Space [13.763716495058294]
ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。
これは、医療応用など、高い意思決定のためにこれらのモデルをデプロイする際のリスクを生じさせる。
本稿では,勾配のペナル化によるバイアスに対するモデル感度を明示的に低減する,概念レベルでのモデル補正手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T10:07:46Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Better sampling in explanation methods can prevent dieselgate-like
deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文 参考訳(メタデータ) (2021-01-26T13:41:37Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。