論文の概要: Distributional Surgery for Language Model Activations
- arxiv url: http://arxiv.org/abs/2501.15758v2
- Date: Sun, 09 Nov 2025 11:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.097179
- Title: Distributional Surgery for Language Model Activations
- Title(参考訳): 言語モデル活性化のための分布手術
- Authors: Bao Nguyen, Binh Nguyen, Duy Nguyen, Viet Anh Nguyen,
- Abstract要約: 本稿では、アクティベーションの修正により、望ましくないコンテンツの世代を検出・緩和する新しい2段階のアプローチを提案する。
本研究は,注目ヘッドを変換する階層的分散ステアリングポリシーを提案する。
複数の言語モデルやデータセットにまたがる経験的評価は,提案手法が望ましくない出力の発生を減らす上で,ベースラインよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 23.655132758081916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models, while capable of generating remarkably coherent and seemingly accurate text, can occasionally produce undesirable content, including harmful or toxic outputs. In this paper, we present a new two-stage approach to detect and mitigate undesirable content generations by rectifying activations. First, we train an ensemble of layerwise classifiers to detect undesirable content using activations by minimizing a smooth surrogate of the risk-aware score. Then, for detected undesirable contents, we propose layerwise distributional steering policies that transform the attention heads. These policies are computed through principled semidefinite programming, which aims to minimally perturb the attention distribution while probabilistically guaranteeing the effectiveness of the editions. Empirical evaluations across multiple language models and datasets show that our method outperforms baselines in reducing the generation of undesirable output.
- Abstract(参考訳): 言語モデルは、驚くほど一貫性があり、一見正確なテキストを生成することができるが、時には有害または有害な出力を含む望ましくないコンテンツを生成できる。
本稿では、アクティベーションの修正により、望ましくないコンテンツの世代を検出・緩和する新しい2段階のアプローチを提案する。
まず,リスク認識スコアのスムーズなサロゲートを最小化して,アクティベーションを用いて望ましくないコンテンツを検出するために層別分類器のアンサンブルを訓練する。
そして,検出不能なコンテンツに対して,注目ヘッドを変換する階層的分散ステアリングポリシーを提案する。
これらのポリシーは、原則付き半定値プログラミングによって計算される。これは、出版物の有効性を確率論的に保証しながら、注意分布を最小限に摂動させることを目的としている。
複数の言語モデルやデータセットにまたがる経験的評価は,提案手法が望ましくない出力の発生を減らす上で,ベースラインよりも優れていることを示している。
関連論文リスト
- Constrained Language Generation with Discrete Diffusion Models [61.81569616239755]
本稿では,離散拡散モデルと微分可能最適化を統合し,自然言語に制約を課す新しい手法であるConstrained Discrete Diffusion (CDD)を提案する。
本手法は, 有害な内容の出現防止による毒性軽減, (ii) 形質および配列レベルの語彙的制約, (iii) 特定の性質に順応した新規分子配列生成など, 様々な自然言語制約を満たすために適用可能であることを示す。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Attacks against Abstractive Text Summarization Models through Lead Bias and Influence Functions [1.7863534204867277]
大規模言語モデルは、敵の摂動やデータ中毒攻撃に弱い。
本研究では,要約モデルに固有の鉛バイアスを生かして,新しいアプローチを明らかにする。
また, インフルエンス関数の革新的な適用法を導入し, データ中毒を発生させ, モデルの整合性を損なう。
論文 参考訳(メタデータ) (2024-10-26T00:35:15Z) - Linearly Controlled Language Generation with Performative Guarantees [9.487387238674721]
我々は、LMの潜在空間で線形に表現される概念意味論の共通モデルを用いる。
本研究では,望ましくない意味に対応する領域から動的に軌道を逸脱する,軽量で勾配のない介入を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:30:44Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。