Fugu-MT 論文翻訳(概要): Circuit Breaking: Removing Model Behaviors with Targeted Ablation

論文の概要: Circuit Breaking: Removing Model Behaviors with Targeted Ablation

arxiv url: http://arxiv.org/abs/2309.05973v1
Date: Tue, 12 Sep 2023 05:51:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 14:20:50.370444
Title: Circuit Breaking: Removing Model Behaviors with Targeted Ablation
Title（参考訳）: サーキットブレーキング:ターゲットアブレーションによるモデル挙動の除去
Authors: Maximilian Li, Xander Davies, Max Nadeau
Abstract要約: 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。そこで本研究では,モデルコンポーネント間の因果経路を限定することで,望ましくない振る舞いを除去する手法を提案する。 11.6Kの因果エッジのうち、わずか12個は有害な生成を軽減し、他の入力に対する性能の低下を最小限に抑えている。
参考スコア（独自算出の注目度）: 2.0065963222620717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We propose a novel approach to removing undesirable behaviors by ablating a small number of causal pathways between model components, with the intention of disabling the computational circuit responsible for the bad behavior. Given a small dataset of inputs where the model behaves poorly, we learn to ablate a small number of important causal pathways. In the setting of reducing GPT-2 toxic language generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic generation with minimal degradation of performance on other inputs.
Abstract（参考訳）: 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。モデルコンポーネント間の少数の因果経路をアブレーションし,悪行の原因となる計算回路を無効にすることを意図して,好ましくない振る舞いを除去する新しい手法を提案する。モデルの動作が不十分な入力の小さなデータセットを考えると、少数の重要な因果経路をアブレーションすることを学ぶ。 GPT-2の有害な言語生成を減少させる設定では、11.6Kの因果縁のうち12個だけが、他の入力の性能低下を最小限に抑えられる。

関連論文リスト

Learning a Generative Meta-Model of LLM Activations [75.30161960337892]
ネットワークの内部状態の分布を学習する"メタモデル"を作成します。ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
論文参考訳（メタデータ） (2026-02-06T18:59:56Z)
DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文参考訳（メタデータ） (2025-02-25T16:44:10Z)
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文参考訳（メタデータ） (2025-02-20T22:51:10Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文参考訳（メタデータ） (2024-06-24T16:40:54Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。 LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文参考訳（メタデータ） (2024-06-19T13:38:34Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Mitigating the Influence of Distractor Tasks in LMs with Prior-Aware Decoding [0.5898893619901381]
本稿では,複数のデータ生成プロセスを組み合わせた専門家の産物として言語モデル(LM)を解釈する理論的枠組みを提案する。本稿では, 先行認識復号法(PAD)について述べる。 44のタスクモデル組み合わせのうち41の改善が見られ、タスク完了率の中央値が40%向上した。
論文参考訳（メタデータ） (2024-01-31T09:28:06Z)
Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。 3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文参考訳（メタデータ） (2023-01-10T03:04:27Z)
Improving the Robustness of Summarization Models by Detecting and Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文参考訳（メタデータ） (2022-12-20T00:33:11Z)
Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文参考訳（メタデータ） (2022-10-25T17:45:36Z)
Focused Adversarial Attacks [1.607104211283248]
機械学習の最近の進歩は、ニューラルモデルが最小限の摂動入力や敵対的な例に対して脆弱であることを示している。我々は、モデルが学習した多様体の非常に限られた部分集合を用いて、逆例を計算することを提案する。 textitFocused Adversarial Attacks (FA)アルゴリズムは、勾配に基づく敵攻撃を行うために、少数の機密領域を識別する。
論文参考訳（メタデータ） (2022-05-19T15:38:23Z)
Towards the Semantic Weak Generalization Problem in Generative Zero-Shot Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文参考訳（メタデータ） (2022-04-24T13:54:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。