論文の概要: GTA: Gated Toxicity Avoidance for LM Performance Preservation
- arxiv url: http://arxiv.org/abs/2312.06122v1
- Date: Mon, 11 Dec 2023 05:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:52:31.059568
- Title: GTA: Gated Toxicity Avoidance for LM Performance Preservation
- Title(参考訳): GTA: LMパフォーマンス保存のための毒性回避
- Authors: Heegyu Kim, Hyunsouk Cho
- Abstract要約: GTA (Gated Toxicity Avoidance) は任意の制御可能なテキスト生成(CTG)法に適用できる。
提案手法の有効性を,各種データセットを対象とした最先端CTG法との比較により評価した。
- 参考スコア(独自算出の注目度): 3.37219266400778
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Caution: This paper includes offensive words that could potentially cause
unpleasantness. The fast-paced evolution of generative language models such as
GPT-4 has demonstrated outstanding results in various NLP generation tasks.
However, due to the potential generation of offensive words related to race or
gender, various Controllable Text Generation (CTG) methods have been proposed
to mitigate the occurrence of harmful words. However, existing CTG methods not
only reduce toxicity but also negatively impact several aspects of the language
model's generation performance, including topic consistency, grammar, and
perplexity. This paper explores the limitations of previous methods and
introduces a novel solution in the form of a simple Gated Toxicity Avoidance
(GTA) that can be applied to any CTG method. We also evaluate the effectiveness
of the proposed GTA by comparing it with state-of-the-art CTG methods across
various datasets. Our findings reveal that gated toxicity avoidance efficiently
achieves comparable levels of toxicity reduction to the original CTG methods
while preserving the generation performance of the language model.
- Abstract(参考訳): 注意:この論文には不快感を引き起こす可能性のある攻撃的な言葉が含まれている。
GPT-4のような生成言語モデルの急速な進化は、様々なNLP生成タスクにおいて顕著な結果を示した。
しかし、人種や性別に関する攻撃的な単語の発生の可能性から、有害な単語の発生を軽減するために様々な制御可能なテキスト生成法が提案されている。
しかし,既存のCTG法は毒性を低下させるだけでなく,話題の一貫性,文法,難易度など,言語モデルの生成性能に悪影響を及ぼす。
本稿では,従来の手法の限界を考察し,任意のCTG法に適用可能なシンプルなGTA(Gated Toxicity Avoidance)の形で新しい解法を提案する。
また,提案手法の有効性を,各種データセットを対象とした最先端CTG法との比較により評価した。
その結果, ゲート毒性回避は, 言語モデルの生成性能を保ちながら, 元のCTG法と同等の毒性低下を効果的に達成できることが判明した。
関連論文リスト
- Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - ToViLaG: Your Visual-Language Generative Model is Also An Evildoer [36.60526586838288]
近年の大規模ビジュアルランゲージ生成モデル(VLGM)は,マルチモーダル画像/テキスト生成において前例のない改善を実現している。
これらのモデルはまた、攻撃的なテキストやポルノ画像などの有害なコンテンツを生成し、重大な倫理的リスクを生じさせる可能性がある。
この研究は、様々なVLGMにまたがる毒性生成と毒性データへの感受性の妥当性を掘り下げるものである。
論文 参考訳(メタデータ) (2023-12-13T08:25:07Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - Deliberate then Generate: Enhanced Prompting Framework for Text
Generation [70.10319005141888]
Deliberate then Generate (DTG) プロンプトフレームワークはエラー検出命令とエラーを含む可能性のある候補で構成されている。
我々は、要約、翻訳、対話など、7つのテキスト生成タスクにまたがる20以上のデータセットに関する広範な実験を行う。
本稿では,DTGが既存のプロンプト手法を一貫して上回り,複数のテキスト生成タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-31T13:23:04Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - GeDi: Generative Discriminator Guided Sequence Generation [53.15651536569169]
本稿では,より小さなLMを生成的識別器として利用し,大規模なLMから生成を誘導する効率的な方法としてGeDiを提案する。
GeDiは最先端技術よりも制御性が強く,生成速度も30倍以上に向上することがわかった。
論文 参考訳(メタデータ) (2020-09-14T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。