論文の概要: Risk-Aware Distributional Intervention Policies for Language Models
- arxiv url: http://arxiv.org/abs/2501.15758v1
- Date: Mon, 27 Jan 2025 04:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.832381
- Title: Risk-Aware Distributional Intervention Policies for Language Models
- Title(参考訳): 言語モデルに対するリスク対応型分散介入法
- Authors: Bao Nguyen, Binh Nguyen, Duy Nguyen, Viet Anh Nguyen,
- Abstract要約: 言語モデルは、有害な内容や有害な内容など、時には望ましくない世代が現れる傾向にある。
本稿では、望ましくないコンテンツの世代を検知し、緩和する新しい2段階のアプローチを提案する。
- 参考スコア(独自算出の注目度): 15.027122089807053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are prone to occasionally undesirable generations, such as harmful or toxic content, despite their impressive capability to produce texts that appear accurate and coherent. This paper presents a new two-stage approach to detect and mitigate undesirable content generations by rectifying activations. First, we train an ensemble of layerwise classifiers to detect undesirable content using activations by minimizing a smooth surrogate of the risk-aware score. Then, for contents that are detected as undesirable, we propose layerwise distributional intervention policies that perturb the attention heads minimally while guaranteeing probabilistically the effectiveness of the intervention. Benchmarks on several language models and datasets show that our method outperforms baselines in reducing the generation of undesirable output.
- Abstract(参考訳): 言語モデルは、正確で一貫性のあるテキストを生成するという印象的な能力にもかかわらず、有害なコンテンツや有害なコンテンツなど、時には望ましくない世代が生まれる傾向があります。
本稿では、アクティベーションの修正により、望ましくないコンテンツの世代を検出・緩和する新しい2段階のアプローチを提案する。
まず,リスク認識スコアのスムーズなサロゲートを最小化して,アクティベーションを用いて望ましくないコンテンツを検出するために層別分類器のアンサンブルを訓練する。
そして, 望ましくないコンテンツに対して, 介入の有効性を確率論的に保証しつつ, 注意を最小限に摂動させる階層的分散介入政策を提案する。
いくつかの言語モデルとデータセットのベンチマークでは、我々の手法は望ましくない出力の発生を減らすためにベースラインを上回ります。
関連論文リスト
- Constrained Language Generation with Discrete Diffusion Models [61.81569616239755]
本稿では,離散拡散モデルと微分可能最適化を統合し,自然言語に制約を課す新しい手法であるConstrained Discrete Diffusion (CDD)を提案する。
本手法は, 有害な内容の出現防止による毒性軽減, (ii) 形質および配列レベルの語彙的制約, (iii) 特定の性質に順応した新規分子配列生成など, 様々な自然言語制約を満たすために適用可能であることを示す。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Attacks against Abstractive Text Summarization Models through Lead Bias and Influence Functions [1.7863534204867277]
大規模言語モデルは、敵の摂動やデータ中毒攻撃に弱い。
本研究では,要約モデルに固有の鉛バイアスを生かして,新しいアプローチを明らかにする。
また, インフルエンス関数の革新的な適用法を導入し, データ中毒を発生させ, モデルの整合性を損なう。
論文 参考訳(メタデータ) (2024-10-26T00:35:15Z) - Linearly Controlled Language Generation with Performative Guarantees [9.487387238674721]
我々は、LMの潜在空間で線形に表現される概念意味論の共通モデルを用いる。
本研究では,望ましくない意味に対応する領域から動的に軌道を逸脱する,軽量で勾配のない介入を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:30:44Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。