論文の概要: Circuit Breaking: Removing Model Behaviors with Targeted Ablation
- arxiv url: http://arxiv.org/abs/2309.05973v2
- Date: Mon, 29 Jan 2024 22:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:06:22.076969
- Title: Circuit Breaking: Removing Model Behaviors with Targeted Ablation
- Title(参考訳): サーキットブレーキング:ターゲットアブレーションによるモデル挙動の除去
- Authors: Maximilian Li, Xander Davies, Max Nadeau
- Abstract要約: 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。
そこで本研究では,モデルコンポーネント間の因果経路を限定することで,望ましくない振る舞いを除去する手法を提案する。
11.6Kの因果エッジのうち、わずか12個は有害な生成を軽減し、他の入力に対する性能の低下を最小限に抑えている。
- 参考スコア(独自算出の注目度): 2.0065963222620717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often exhibit behaviors that improve performance on a
pre-training objective but harm performance on downstream tasks. We propose a
novel approach to removing undesirable behaviors by ablating a small number of
causal pathways between model components, with the intention of disabling the
computational circuit responsible for the bad behavior. Given a small dataset
of inputs where the model behaves poorly, we learn to ablate a small number of
important causal pathways. In the setting of reducing GPT-2 toxic language
generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic
generation with minimal degradation of performance on other inputs.
- Abstract(参考訳): 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。
モデルコンポーネント間の少数の因果経路をアブレーションし,悪行の原因となる計算回路を無効にすることを意図して,好ましくない振る舞いを除去する新しい手法を提案する。
モデルの動作が不十分な入力の小さなデータセットを考えると、少数の重要な因果経路をアブレーションすることを学ぶ。
GPT-2の有害な言語生成を減少させる設定では、11.6Kの因果縁のうち12個だけが、他の入力の性能低下を最小限に抑えられる。
関連論文リスト
- Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。
そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。
LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文 参考訳(メタデータ) (2024-06-19T13:38:34Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Mitigating the Influence of Distractor Tasks in LMs with Prior-Aware Decoding [0.5898893619901381]
本稿では,複数のデータ生成プロセスを組み合わせた専門家の産物として言語モデル(LM)を解釈する理論的枠組みを提案する。
本稿では, 先行認識復号法(PAD)について述べる。
44のタスクモデル組み合わせのうち41の改善が見られ、タスク完了率の中央値が40%向上した。
論文 参考訳(メタデータ) (2024-01-31T09:28:06Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Focused Adversarial Attacks [1.607104211283248]
機械学習の最近の進歩は、ニューラルモデルが最小限の摂動入力や敵対的な例に対して脆弱であることを示している。
我々は、モデルが学習した多様体の非常に限られた部分集合を用いて、逆例を計算することを提案する。
textitFocused Adversarial Attacks (FA)アルゴリズムは、勾配に基づく敵攻撃を行うために、少数の機密領域を識別する。
論文 参考訳(メタデータ) (2022-05-19T15:38:23Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。