論文の概要: Risk-Aware Distributional Intervention Policies for Language Models
- arxiv url: http://arxiv.org/abs/2501.15758v1
- Date: Mon, 27 Jan 2025 04:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:07.166903
- Title: Risk-Aware Distributional Intervention Policies for Language Models
- Title(参考訳): 言語モデルに対するリスク対応型分散介入法
- Authors: Bao Nguyen, Binh Nguyen, Duy Nguyen, Viet Anh Nguyen,
- Abstract要約: 言語モデルは、有害な内容や有害な内容など、時には望ましくない世代が現れる傾向にある。
本稿では、望ましくないコンテンツの世代を検知し、緩和する新しい2段階のアプローチを提案する。
- 参考スコア(独自算出の注目度): 15.027122089807053
- License:
- Abstract: Language models are prone to occasionally undesirable generations, such as harmful or toxic content, despite their impressive capability to produce texts that appear accurate and coherent. This paper presents a new two-stage approach to detect and mitigate undesirable content generations by rectifying activations. First, we train an ensemble of layerwise classifiers to detect undesirable content using activations by minimizing a smooth surrogate of the risk-aware score. Then, for contents that are detected as undesirable, we propose layerwise distributional intervention policies that perturb the attention heads minimally while guaranteeing probabilistically the effectiveness of the intervention. Benchmarks on several language models and datasets show that our method outperforms baselines in reducing the generation of undesirable output.
- Abstract(参考訳): 言語モデルは、正確で一貫性のあるテキストを生成するという印象的な能力にもかかわらず、有害なコンテンツや有害なコンテンツなど、時には望ましくない世代が生まれる傾向があります。
本稿では、アクティベーションの修正により、望ましくないコンテンツの世代を検出・緩和する新しい2段階のアプローチを提案する。
まず,リスク認識スコアのスムーズなサロゲートを最小化して,アクティベーションを用いて望ましくないコンテンツを検出するために層別分類器のアンサンブルを訓練する。
そして, 望ましくないコンテンツに対して, 介入の有効性を確率論的に保証しつつ, 注意を最小限に摂動させる階層的分散介入政策を提案する。
いくつかの言語モデルとデータセットのベンチマークでは、我々の手法は望ましくない出力の発生を減らすためにベースラインを上回ります。
関連論文リスト
- Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Attacks against Abstractive Text Summarization Models through Lead Bias and Influence Functions [1.7863534204867277]
大規模言語モデルは、敵の摂動やデータ中毒攻撃に弱い。
本研究では,要約モデルに固有の鉛バイアスを生かして,新しいアプローチを明らかにする。
また, インフルエンス関数の革新的な適用法を導入し, データ中毒を発生させ, モデルの整合性を損なう。
論文 参考訳(メタデータ) (2024-10-26T00:35:15Z) - Linearly Controlled Language Generation with Performative Guarantees [9.487387238674721]
我々は、LMの潜在空間で線形に表現される概念意味論の共通モデルを用いる。
本研究では,望ましくない意味に対応する領域から動的に軌道を逸脱する,軽量で勾配のない介入を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:30:44Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。