Fugu-MT 論文翻訳(概要): Steering Without Side Effects: Improving Post-Deployment Control of Language Models

論文の概要: Steering Without Side Effects: Improving Post-Deployment Control of Language Models

arxiv url: http://arxiv.org/abs/2406.15518v1
Date: Fri, 21 Jun 2024 01:37:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 23:34:50.849237
Title: Steering Without Side Effects: Improving Post-Deployment Control of Language Models
Title（参考訳）: 副作用のないステアリング: 言語モデルのデプロイ後制御を改善する
Authors: Asa Cooper Stickland, Alexander Lyzhov, Jacob Pfau, Salsabila Mahdi, Samuel R. Bowman,
Abstract要約: 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
参考スコア（独自算出の注目度）: 61.99293520621248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models (LMs) have been shown to behave unexpectedly post-deployment. For example, new jailbreaks continually arise, allowing model misuse, despite extensive red-teaming and adversarial training from developers. Given most model queries are unproblematic and frequent retraining results in unstable user experience, methods for mitigation of worst-case behavior should be targeted. One such method is classifying inputs as potentially problematic, then selectively applying steering vectors on these problematic inputs, i.e. adding particular vectors to model hidden states. However, steering vectors can also negatively affect model performance, which will be an issue on cases where the classifier was incorrect. We present KL-then-steer (KTS), a technique that decreases the side effects of steering while retaining its benefits, by first training a model to minimize Kullback-Leibler (KL) divergence between a steered and unsteered model on benign inputs, then steering the model that has undergone this training. Our best method prevents 44% of jailbreak attacks compared to the original Llama-2-chat-7B model while maintaining helpfulness (as measured by MT-Bench) on benign requests almost on par with the original LM. To demonstrate the generality and transferability of our method beyond jailbreaks, we show that our KTS model can be steered to reduce bias towards user-suggested answers on TruthfulQA. Code is available: https://github.com/AsaCooperStickland/kl-then-steer.
Abstract（参考訳）: 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。例えば、新しいジェイルブレイクは継続的に発生し、開発者による大規模なレッドチームと敵のトレーニングにもかかわらず、モデル誤用を可能にします。ほとんどのモデルクエリは、不安定なユーザエクスペリエンスにおいて、非プロブレマ的で頻繁な再トレーニング結果であるので、最悪の振る舞いを緩和するための方法は、ターゲットにすべきである。そのような方法の1つは、入力を潜在的な問題として分類し、次にこれらの問題のある入力にステアリングベクトルを選択的に適用することである。しかし、ステアリングベクトルはモデルの性能にも悪影響を及ぼす可能性がある。 KL-テーンステア(KL-then-steer, KTS)は、まず、ベニグインプット上のステアリングモデルと非ステアリングモデルとの間のKLのばらつきを最小限に抑えるため、ステアリングの副作用を軽減し、その利点を維持しつつ、ステアリングの副作用を軽減する技術である。 Llama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぎつつ、元のLMとほぼ同等の良質な要求に対して(MT-Benchが測定した)有用性を維持する。ジェイルブレイクを超えた手法の汎用性と伝達性を示すため,我々のKTSモデルはTrathfulQA上でのユーザ提案型回答に対するバイアスを軽減することができることを示す。コードは、https://github.com/AsaCooperStickland/kl-then-steer.comで入手できる。

関連論文リスト

Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文参考訳（メタデータ） (2025-07-31T21:04:12Z)
Adversarial Manipulation of Reasoning Models using Internal Representations [1.024113475677323]
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。以上の結果から,このチェーン・オブ・シンドローム自体が,推論モデルにおける敵対的操作の新たなターゲットとなる可能性が示唆された。
論文参考訳（メタデータ） (2025-07-03T20:51:32Z)
AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。 AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-04-13T07:39:17Z)
Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.508109544083496]
視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文参考訳（メタデータ） (2024-11-23T02:17:17Z)
Steering Language Model Refusal with Sparse Autoencoders [16.78963326253821]
拒否動作を媒介するPhi-3 Miniの特徴を同定し,操舵する。機能ステアリングはPhi-3 Minisのロバスト性を向上し,さまざまな障害に対するジェイルブレイクの試みに有効であることがわかった。しかし、機能ステアリングはベンチマーク全体のパフォーマンスに悪影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2024-11-18T05:47:02Z)
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-09-25T06:48:25Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
Representation Tuning [0.0]
アクティベーションエンジニアリングは、大規模言語モデルのオンライン制御手段として、ますます人気が高まっている。本研究では,これらのベクトルを直接モデルにチューニングするために,興味の行動方向を表すベクトルを用いた推論時ステアリングの概念を拡張する。
論文参考訳（メタデータ） (2024-09-11T00:56:02Z)
Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文参考訳（メタデータ） (2024-06-17T16:36:12Z)
Manipulating and Mitigating Generative Model Biases without Retraining [49.60774626839712]
モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
論文参考訳（メタデータ） (2024-04-03T07:33:30Z)
From Hope to Safety: Unlearning Biases of Deep Models via Gradient Penalization in Latent Space [13.763716495058294]
ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。これは、医療応用など、高い意思決定のためにこれらのモデルをデプロイする際のリスクを生じさせる。本稿では,勾配のペナル化によるバイアスに対するモデル感度を明示的に低減する,概念レベルでのモデル補正手法を提案する。
論文参考訳（メタデータ） (2023-08-18T10:07:46Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文参考訳（メタデータ） (2020-11-18T09:00:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。