論文の概要: DetoxLLM: A Framework for Detoxification with Explanations
- arxiv url: http://arxiv.org/abs/2402.15951v2
- Date: Thu, 03 Oct 2024 23:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:43.285846
- Title: DetoxLLM: A Framework for Detoxification with Explanations
- Title(参考訳): DetoxLLM: 説明付きデトックス化フレームワーク
- Authors: Md Tawkat Islam Khondaker, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan,
- Abstract要約: 最初の包括的エンドツーエンドデトキシフィケーションフレームワークであるDetoxLLMを提案する。
まず,マルチステップデータ処理と生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。
我々の脱毒モデルは、人間に注釈付き並列コーパスで訓練されたSoTAモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 25.174878638472254
- License:
- Abstract: Prior works on detoxification are scattered in the sense that they do not cover all aspects of detoxification needed in a real-world scenario. Notably, prior works restrict the task of developing detoxification models to only a seen subset of platforms, leaving the question of how the models would perform on unseen platforms unexplored. Additionally, these works do not address non-detoxifiability, a phenomenon whereby the toxic text cannot be detoxified without altering the meaning. We propose DetoxLLM, the first comprehensive end-to-end detoxification framework, which attempts to alleviate the aforementioned limitations. We first introduce a cross-platform pseudo-parallel corpus applying multi-step data processing and generation strategies leveraging ChatGPT. We then train a suite of detoxification models with our cross-platform corpus. We show that our detoxification models outperform the SoTA model trained with human-annotated parallel corpus. We further introduce explanation to promote transparency and trustworthiness. DetoxLLM additionally offers a unique paraphrase detector especially dedicated for the detoxification task to tackle the non-detoxifiable cases. Through experimental analysis, we demonstrate the effectiveness of our cross-platform corpus and the robustness of DetoxLLM against adversarial toxicity.
- Abstract(参考訳): デトキシ化に関する以前の研究は、現実のシナリオで必要とされるデトキシ化のすべての側面をカバーしていないという意味で散在している。
特に、事前の作業では、デトキシフィケーションモデルを開発するタスクをプラットフォームのごく一部に限定しており、モデルが探索されていないプラットフォーム上でどのように機能するかという疑問が残されている。
さらに、これらの研究は、毒性のあるテキストが意味を変えることなく解毒できない現象である非解毒性には対処しない。
DetoxLLMは、前述の制限を緩和する最初の包括的なエンドツーエンドのデトキシフィケーションフレームワークである。
まず,ChatGPTを利用した多段階データ処理と生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。
次に、クロスプラットフォームのコーパスで一連の解毒モデルをトレーニングします。
我々の脱毒モデルは、人間に注釈付き並列コーパスで訓練されたSoTAモデルより優れていることを示す。
透明性と信頼性を促進するための説明についても紹介する。
DetoxLLMはまた、特に非解毒性ケースに取り組むためにデトックス化タスク専用の独自のパラフレーズ検出器を提供する。
実験により, クロスプラットフォームコーパスの有効性と, 対向毒性に対するDetoxLLMの有用性を実証した。
関連論文リスト
- Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - DiffuDetox: A Mixed Diffusion Model for Text Detoxification [12.014080113339178]
テキストデトックス化は、有害なテキストから攻撃的コンテンツを取り除くことを目的とした条件付きテキスト生成タスクである。
テキストデトックス化のための混合条件と非条件拡散モデルであるDiffuDetoxを提案する。
論文 参考訳(メタデータ) (2023-06-14T13:41:23Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。