論文の概要: Language Detoxification with Attribute-Discriminative Latent Space
- arxiv url: http://arxiv.org/abs/2210.10329v1
- Date: Wed, 19 Oct 2022 06:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:52:11.320692
- Title: Language Detoxification with Attribute-Discriminative Latent Space
- Title(参考訳): Attribute-Discriminative Latent Space を用いた言語解毒
- Authors: Jin Myung Kwak, Minseon Kim and Sung Ju Hwang
- Abstract要約: いくつかのテキスト生成アプローチは、有害なテキストを新たなLMや摂動で解毒することを目的としている。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
これにより、LMは最小限のメモリと計算オーバーヘッドでテキスト生成を制御することができる。
- 参考スコア(独自算出の注目度): 59.167432249229584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Language Models (LMs) achieve remarkable performances on a
variety of NLU tasks, but are also prone to generating toxic texts such as
insults, threats, and profanities which limit their adaptations to the
real-world applications. To overcome this issue, a few text generation
approaches aim to detoxify toxic texts with additional LMs or perturbations.
However, previous methods require excessive memory, computations, and time
which are serious bottlenecks in their real-world application. To address such
limitations, we propose an effective yet efficient method for language
detoxification using an attribute-discriminative latent space. Specifically, we
project the latent space of an original Transformer LM to a discriminative
latent space on which the texts are well-separated by their attributes, with
the help of a projection block and a discriminator. This allows the LM to
control the text generation to be non-toxic with minimal memory and computation
overhead. We validate our model, Attribute-Discriminative Language Model (ADLM)
on detoxified language and dialogue generation tasks, on which our method
significantly outperforms baselines both in performance and efficiency.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)は、様々なNLUタスクにおいて顕著なパフォーマンスを達成するが、現実のアプリケーションへの適応を制限する侮辱、脅迫、誇示といった有害なテキストを生成する傾向がある。
この問題を克服するために、いくつかのテキスト生成アプローチは、追加のlmsまたは摂動で有害なテキストを無害化することを目的としている。
しかし、従来の手法では、現実のアプリケーションでは重大なボトルネックとなる過剰なメモリ、計算、時間を必要とする。
このような制限に対処するために,属性弁別的潜在空間を用いた効率的かつ効率的な言語デトキシフィケーション手法を提案する。
具体的には、元のトランスフォーマーLMの潜在空間を、テキストがそれらの属性によって適切に区切られた識別潜在空間に投影し、プロジェクションブロックと判別器の助けを借りる。
これにより、LMは最小限のメモリと計算オーバーヘッドでテキスト生成を制御することができる。
提案手法は,非対応言語と対話生成タスクにおける属性識別言語モデル (adlm) の有効性を検証し,性能と効率においてベースラインを有意に上回っている。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Linearly Controlled Language Generation with Performative Guarantees [9.487387238674721]
我々は、LMの潜在空間で線形に表現される概念意味論の共通モデルを用いる。
本研究では,望ましくない意味に対応する領域から動的に軌道を逸脱する,軽量で勾配のない介入を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:30:44Z) - DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion [16.989349884904943]
ファインチューニングや補助モデルを含む現在のソリューションは通常、広範な計算資源を必要とする。
本稿では,資源と時間コストの低い活性化空間における表現工学を適用して,LMをデトックス化する新しい手法であるDeSteinを提案する。
論文 参考訳(メタデータ) (2024-04-16T11:07:48Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。