論文の概要: Steering Without Side Effects: Improving Post-Deployment Control of Language Models
- arxiv url: http://arxiv.org/abs/2406.15518v1
- Date: Fri, 21 Jun 2024 01:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:34:50.849237
- Title: Steering Without Side Effects: Improving Post-Deployment Control of Language Models
- Title(参考訳): 副作用のないステアリング: 言語モデルのデプロイ後制御を改善する
- Authors: Asa Cooper Stickland, Alexander Lyzhov, Jacob Pfau, Salsabila Mahdi, Samuel R. Bowman,
- Abstract要約: 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
- 参考スコア(独自算出の注目度): 61.99293520621248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have been shown to behave unexpectedly post-deployment. For example, new jailbreaks continually arise, allowing model misuse, despite extensive red-teaming and adversarial training from developers. Given most model queries are unproblematic and frequent retraining results in unstable user experience, methods for mitigation of worst-case behavior should be targeted. One such method is classifying inputs as potentially problematic, then selectively applying steering vectors on these problematic inputs, i.e. adding particular vectors to model hidden states. However, steering vectors can also negatively affect model performance, which will be an issue on cases where the classifier was incorrect. We present KL-then-steer (KTS), a technique that decreases the side effects of steering while retaining its benefits, by first training a model to minimize Kullback-Leibler (KL) divergence between a steered and unsteered model on benign inputs, then steering the model that has undergone this training. Our best method prevents 44% of jailbreak attacks compared to the original Llama-2-chat-7B model while maintaining helpfulness (as measured by MT-Bench) on benign requests almost on par with the original LM. To demonstrate the generality and transferability of our method beyond jailbreaks, we show that our KTS model can be steered to reduce bias towards user-suggested answers on TruthfulQA. Code is available: https://github.com/AsaCooperStickland/kl-then-steer.
- Abstract(参考訳): 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
例えば、新しいジェイルブレイクは継続的に発生し、開発者による大規模なレッドチームと敵のトレーニングにもかかわらず、モデル誤用を可能にします。
ほとんどのモデルクエリは、不安定なユーザエクスペリエンスにおいて、非プロブレマ的で頻繁な再トレーニング結果であるので、最悪の振る舞いを緩和するための方法は、ターゲットにすべきである。
そのような方法の1つは、入力を潜在的な問題として分類し、次にこれらの問題のある入力にステアリングベクトルを選択的に適用することである。
しかし、ステアリングベクトルはモデルの性能にも悪影響を及ぼす可能性がある。
KL-テーンステア(KL-then-steer, KTS)は、まず、ベニグインプット上のステアリングモデルと非ステアリングモデルとの間のKLのばらつきを最小限に抑えるため、ステアリングの副作用を軽減し、その利点を維持しつつ、ステアリングの副作用を軽減する技術である。
Llama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぎつつ、元のLMとほぼ同等の良質な要求に対して(MT-Benchが測定した)有用性を維持する。
ジェイルブレイクを超えた手法の汎用性と伝達性を示すため,我々のKTSモデルはTrathfulQA上でのユーザ提案型回答に対するバイアスを軽減することができることを示す。
コードは、https://github.com/AsaCooperStickland/kl-then-steer.comで入手できる。
関連論文リスト
- Test-Time Adaptation with State-Space Models [4.248760709042802]
本研究では,分散ドリフトを受ける配置モデルに適応可能な状態空間モデルを提案する。
我々のモデルは、最後の隠れた特徴セットの分布シフトによって引き起こされるダイナミクスを学習する。
私たちのアプローチは軽量で、モデルの最後の線形層だけを変更します。
論文 参考訳(メタデータ) (2024-07-17T11:18:49Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Activation Addition: Steering Language Models Without Optimization [40.04138190785384]
アクティベーションエンジニアリングは、モデル動作を予測可能に変更するために、推論時のアクティベーションを変更する。
ActAddは微調整やRLHFよりも計算と実装の労力がはるかに少ない。
その計算オーバーヘッドは、モデルサイズの増加よりも安定または改善しているように見える。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - From Hope to Safety: Unlearning Biases of Deep Models via Gradient
Penalization in Latent Space [13.763716495058294]
ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。
これは、医療応用など、高い意思決定のためにこれらのモデルをデプロイする際のリスクを生じさせる。
本稿では,勾配のペナル化によるバイアスに対するモデル感度を明示的に低減する,概念レベルでのモデル補正手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T10:07:46Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Better sampling in explanation methods can prevent dieselgate-like
deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文 参考訳(メタデータ) (2021-01-26T13:41:37Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。