論文の概要: Parameter-Efficient Detoxification with Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2401.06947v1
- Date: Sat, 13 Jan 2024 01:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:29:19.570669
- Title: Parameter-Efficient Detoxification with Contrastive Decoding
- Title(参考訳): コントラスト復号を用いたパラメータ効率の高いデトキシフィケーション
- Authors: Tong Niu, Caiming Xiong, Semih Yavuz, Yingbo Zhou
- Abstract要約: Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 78.5124331048714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of natural language generation has witnessed significant
advancements in recent years, including the development of controllable text
generation techniques. However, controlling the attributes of the generated
text remains a challenge, especially when aiming to avoid undesirable behavior
such as toxicity. In this work, we introduce Detoxification Generator
(DETOXIGEN), an inference-time algorithm that steers the generation away from
unwanted styles. DETOXIGEN is an ensemble of a pre-trained language model
(generator) and a detoxifier. The detoxifier is trained intentionally on the
toxic data representative of the undesirable attribute, encouraging it to
generate text in that style exclusively. During the actual generation, we use
the trained detoxifier to produce undesirable tokens for the generator to
contrast against at each decoding step. This approach directly informs the
generator to avoid generating tokens that the detoxifier considers highly
likely. We evaluate DETOXIGEN on the commonly used REALTOXICITYPROMPTS
benchmark (Gehman et al., 2020) with various language models as generators. We
find that it significantly outperforms previous approaches in detoxification
metrics while not compromising on the generation quality. Moreover, the
detoxifier is obtained by soft prompt-tuning using the same backbone language
model as the generator. Hence, DETOXIGEN requires only a tiny amount of extra
weights from the virtual tokens of the detoxifier to be loaded into GPU memory
while decoding, making it a promising lightweight, practical, and
parameter-efficient detoxification strategy.
- Abstract(参考訳): 自然言語生成の分野は近年、制御可能なテキスト生成技術の開発など、かなりの進歩を遂げている。
しかし、特に毒性などの望ましくない行動を避けようとする場合、生成したテキストの属性を制御することは依然として困難である。
本研究では,不要なスタイルから生成を制御する推論時間アルゴリズムであるdetoxification generator (detoxigen)を提案する。
DETOXIGENは、事前訓練された言語モデル(ジェネレータ)とデトキシファイターのアンサンブルである。
detoxifierは、望ましくない属性の有毒なデータ代表者に基づいて故意に訓練され、そのスタイルでテキストを生成するように促される。
実際の生成では、トレーニングされたデトキシレータを使用して、各デコードステップで対照的に生成する望ましくないトークンを生成します。
このアプローチは、デトキシファイアが高い確率で考えるトークンの生成を避けるために、ジェネレータに直接通知する。
我々は,REALTOXICITYPROMPTSベンチマーク(Gehman et al., 2020)を用いて,様々な言語モデルをジェネレータとして評価した。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
また、このデトキシファイタは、ジェネレータと同じバックボーン言語モデルを用いてソフトプロンプトチューニングにより得られる。
したがって、DTOXIGENはデコード中にGPUメモリにロードされるデトキシファイアの仮想トークンから少量の余剰重量しか必要とせず、軽量で実用的でパラメータ効率の良いデトキシファイア戦略である。
関連論文リスト
- Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - DetoxLLM: A Framework for Detoxification with Explanations [25.174878638472254]
最初の包括的エンドツーエンドデトキシフィケーションフレームワークであるDetoxLLMを提案する。
まず,マルチステップデータ処理と生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。
我々の脱毒モデルは、人間に注釈付き並列コーパスで訓練されたSoTAモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-25T01:56:47Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Generating Sequences by Learning to Self-Correct [64.0249217590888]
自己補正(Self-Correction)は、不完全な世代を反復的に修正する独立した修正器から不完全なベースジェネレータを分離する。
本稿では,3つの多種多様なタスクにおいて,自己補正がベースジェネレータを改善することを示す。
論文 参考訳(メタデータ) (2022-10-31T18:09:51Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - GeDi: Generative Discriminator Guided Sequence Generation [53.15651536569169]
本稿では,より小さなLMを生成的識別器として利用し,大規模なLMから生成を誘導する効率的な方法としてGeDiを提案する。
GeDiは最先端技術よりも制御性が強く,生成速度も30倍以上に向上することがわかった。
論文 参考訳(メタデータ) (2020-09-14T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。