Fugu-MT 論文翻訳(概要): Leashing the Inner Demons: Self-Detoxification for Language Models

論文の概要: Leashing the Inner Demons: Self-Detoxification for Language Models

arxiv url: http://arxiv.org/abs/2203.03072v1
Date: Sun, 6 Mar 2022 23:55:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 14:41:18.797922
Title: Leashing the Inner Demons: Self-Detoxification for Language Models
Title（参考訳）: 内なる悪魔を解き放つ: 言語モデルのための自己デトキシフィケーション
Authors: Canwen Xu, Zexue He, Zhankui He, Julian McAuley
Abstract要約: 言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
参考スコア（独自算出の注目度）: 13.576289320208511
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) can reproduce (or amplify) toxic language seen during training, which poses a risk to their practical application. In this paper, we conduct extensive experiments to study this phenomenon. We analyze the impact of prompts, decoding strategies and training corpora on the output toxicity. Based on our findings, we propose a simple yet effective method for language models to "detoxify" themselves without an additional large corpus or external discriminator. Compared to a supervised baseline, our proposed method shows better toxicity reduction with good generation quality in the generated content under multiple settings. Warning: some examples shown in the paper may contain uncensored offensive content.
Abstract（参考訳）: 言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。本稿では,この現象を研究するための広範な実験を行う。我々は,プロンプト,デコード戦略,トレーニングコーパスが出力毒性に与える影響を分析する。そこで本研究では, 言語モデルに対して, 新たなコーパスや外部判別器を使わずに, 自己を「デトックス化」する簡易かつ効果的な手法を提案する。教師付きベースラインと比較して, 提案手法は, 複数の条件下で生成したコンテンツの良質な生成品質に優れた毒性低下を示す。警告: 論文に示されているいくつかの例は、無検閲の攻撃的内容を含んでいるかもしれない。

関連論文リスト

<think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文参考訳（メタデータ） (2025-09-10T07:48:24Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。 ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文参考訳（メタデータ） (2024-10-05T13:30:33Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。 FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文参考訳（メタデータ） (2024-02-23T09:04:48Z)
Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-16T16:49:39Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文参考訳（メタデータ） (2022-10-19T06:54:42Z)
Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文参考訳（メタデータ） (2022-05-24T22:44:43Z)
Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文参考訳（メタデータ） (2022-04-30T18:25:18Z)
Reward Modeling for Mitigating Toxicity in Transformer-based Language Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文参考訳（メタデータ） (2022-02-19T19:26:22Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。