論文の概要: Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation
- arxiv url: http://arxiv.org/abs/2410.03415v1
- Date: Fri, 4 Oct 2024 13:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:29:14.893568
- Title: Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation
- Title(参考訳): 単一ベクトルアブレーションによる言語モデルにおける偽の拒絶の軽減
- Authors: Xinpeng Wang, Chengzhi Hu, Paul Röttger, Barbara Plank,
- Abstract要約: 言語モデルを有用かつ無害にトレーニングするには、拒否行動の慎重な校正が必要である。
本稿では,単一ベクトルアブレーションによる言語モデルにおける偽の拒絶を緩和するための簡易かつ外科的手法を提案する。
提案手法はトレーニング不要で,モデルに依存しないため,現在および将来の言語モデルにおける誤認の軽減に有効である。
- 参考スコア(独自算出の注目度): 29.605302471407537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a language model to be both helpful and harmless requires careful calibration of refusal behaviours: Models should refuse to follow malicious instructions or give harmful advice (e.g. "how do I kill someone?"), but they should not refuse safe requests, even if they superficially resemble unsafe ones (e.g. "how do I kill a Python process?"). Avoiding such false refusal, as prior work has shown, is challenging even for highly-capable language models. In this paper, we propose a simple and surgical method for mitigating false refusal in language models via single vector ablation. For a given model, we extract a false refusal vector and show that ablating this vector reduces false refusal rate without negatively impacting model safety and general model capabilities. We also show that our approach can be used for fine-grained calibration of model safety. Our approach is training-free and model-agnostic, making it useful for mitigating the problem of false refusal in current and future language models.
- Abstract(参考訳): モデルが悪意のある指示に従うことや、有害なアドバイスをすることを拒否したり(例: "どうやって誰かを殺すのか" など)、安全でないもの(例: "どのようにPythonプロセスを殺すのか" など)に似ても、安全な要求を拒否するべきではない。
このような誤った拒絶を避けることは、以前の研究が示すように、高機能な言語モデルでさえ困難である。
本稿では,単一ベクトルアブレーションによる言語モデルにおける偽の拒絶を緩和するための簡易かつ外科的手法を提案する。
与えられたモデルに対して、偽の拒絶ベクトルを抽出し、このベクトルを非難することで、モデル安全性や一般モデルの能力に悪影響を及ぼすことなく、偽の拒絶率を低減することを示す。
また,本手法はモデル安全性のきめ細かい校正に有効であることを示す。
提案手法はトレーニング不要で,モデルに依存しないため,現在および将来の言語モデルにおける誤認の問題を軽減するのに有用である。
関連論文リスト
- Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Masked Adversarial Generation for Neural Machine Translation [0.0]
我々は,言語モデルに基づいて逆生成器を訓練することにより,モデルを攻撃することを学ぶ。
実験の結果,機械翻訳モデルの堅牢性は向上し,競合する手法よりも高速であることがわかった。
論文 参考訳(メタデータ) (2021-09-01T14:56:37Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP [10.936043362876651]
問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
論文 参考訳(メタデータ) (2021-02-28T11:07:37Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。