論文の概要: GreenLLaMA: A Framework for Detoxification with Explanations
- arxiv url: http://arxiv.org/abs/2402.15951v1
- Date: Sun, 25 Feb 2024 01:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:11:23.833638
- Title: GreenLLaMA: A Framework for Detoxification with Explanations
- Title(参考訳): GreenLLaMA: 説明付きデトックス化フレームワーク
- Authors: Md Tawkat Islam Khondaker, Muhammad Abdul-Mageed, Laks V. S.
Lakshmanan
- Abstract要約: 最初の包括的エンドツーエンドデトキシフィケーションフレームワークであるGreenLLaMAを提案する。
まず,マルチステップデータ処理と生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。
我々の脱毒モデルは、人間に注釈付き並列コーパスで訓練されたSoTAモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 28.294040692442618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior works on detoxification are scattered in the sense that they do not
cover all aspects of detoxification needed in a real-world scenario. Notably,
prior works restrict the task of developing detoxification models to only a
seen subset of platforms, leaving the question of how the models would perform
on unseen platforms unexplored. Additionally, these works do not address
non-detoxifiability, a phenomenon whereby the toxic text cannot be detoxified
without altering the meaning. We propose GreenLLaMA, the first comprehensive
end-to-end detoxification framework, which attempts to alleviate the
aforementioned limitations. We first introduce a cross-platform pseudo-parallel
corpus applying multi-step data processing and generation strategies leveraging
ChatGPT. We then train a suite of detoxification models with our cross-platform
corpus. We show that our detoxification models outperform the SoTA model
trained with human-annotated parallel corpus. We further introduce explanation
to promote transparency and trustworthiness. GreenLLaMA additionally offers a
unique paraphrase detector especially dedicated for the detoxification task to
tackle the non-detoxifiable cases. Through experimental analysis, we
demonstrate the effectiveness of our cross-platform corpus and the robustness
of GreenLLaMA against adversarial toxicity.
- Abstract(参考訳): デトキシ化に関する以前の研究は、現実のシナリオで必要とされるデトキシ化のすべての側面をカバーしていないという意味で散在している。
特に、事前の作業はデトキシフィケーションモデルを開発するタスクをプラットフォームの見掛けられたサブセットのみに制限し、モデルが未解決のプラットフォームでどのように実行されるかという問題を残している。
さらにこれらの研究は、毒性のあるテキストが意味を変えることなく解毒できない現象である非解毒性には対処しない。
上記の制限を緩和しようとする,初の包括的なエンドツーエンドデトキシフィケーションフレームワークであるgreenllamaを提案する。
まず,マルチステップデータ処理とchatgptを活用した生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。
次に、クロスプラットフォームコーパスで一連のデトキシフィケーションモデルをトレーニングします。
我々は,人間に注釈付き並列コーパスで学習した sota モデルよりもデトキシフィケーションモデルの方が優れていることを示す。
さらに,透明性と信頼性を促進するために説明を紹介する。
GreenLLaMAはまた、特に非解毒性ケースに取り組むための解毒タスク専用の独自のパラフレーズ検出器も提供している。
実験により, クロスプラットフォームコーパスの有効性と, 敵性毒性に対するGreenLLaMAの堅牢性について検討した。
関連論文リスト
- Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - DiffuDetox: A Mixed Diffusion Model for Text Detoxification [12.014080113339178]
テキストデトックス化は、有害なテキストから攻撃的コンテンツを取り除くことを目的とした条件付きテキスト生成タスクである。
テキストデトックス化のための混合条件と非条件拡散モデルであるDiffuDetoxを提案する。
論文 参考訳(メタデータ) (2023-06-14T13:41:23Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。