論文の概要: GPT-DETOX: An In-Context Learning-Based Paraphraser for Text Detoxification
- arxiv url: http://arxiv.org/abs/2404.03052v1
- Date: Wed, 3 Apr 2024 20:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:44:51.915873
- Title: GPT-DETOX: An In-Context Learning-Based Paraphraser for Text Detoxification
- Title(参考訳): GPT-DETOX:テキストデトキシ化のための文脈学習型パラフレーズ
- Authors: Ali Pesaranghader, Nikhil Verma, Manasa Bharadwaj,
- Abstract要約: GPT-3.5 Turbo を用いたテキストデトキシフィケーションのためのインテキスト・インテキスト・ラーニングのためのフレームワークとして GPT-DETOX を提案する。
単語マッチング例選択(WMES)と文脈マッチング例選択(CMES)の2つの手法を提案する。
我々は、アンサンブルをゼロショットと数ショット設定によるベースプロンプトによって形作るアンサンブル・イン・コンテクスト・ラーニング(EICL)を考慮している。
- 参考スコア(独自算出の注目度): 1.8295720742100332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful and offensive communication or content is detrimental to social bonding and the mental state of users on social media platforms. Text detoxification is a crucial task in natural language processing (NLP), where the goal is removing profanity and toxicity from text while preserving its content. Supervised and unsupervised learning are common approaches for designing text detoxification solutions. However, these methods necessitate fine-tuning, leading to computational overhead. In this paper, we propose GPT-DETOX as a framework for prompt-based in-context learning for text detoxification using GPT-3.5 Turbo. We utilize zero-shot and few-shot prompting techniques for detoxifying input sentences. To generate few-shot prompts, we propose two methods: word-matching example selection (WMES) and context-matching example selection (CMES). We additionally take into account ensemble in-context learning (EICL) where the ensemble is shaped by base prompts from zero-shot and all few-shot settings. We use ParaDetox and APPDIA as benchmark detoxification datasets. Our experimental results show that the zero-shot solution achieves promising performance, while our best few-shot setting outperforms the state-of-the-art models on ParaDetox and shows comparable results on APPDIA. Our EICL solutions obtain the greatest performance, adding at least 10% improvement, against both datasets.
- Abstract(参考訳): 有害で攻撃的なコミュニケーションやコンテンツは、ソーシャル・ボンディングやソーシャルメディア・プラットフォーム上のユーザーの精神状態に有害である。
テキストの解毒は、自然言語処理(NLP)において重要な課題であり、そのゴールは、その内容を保持しながら、テキストから誇張性と毒性を取り除くことである。
教師なし学習は、テキストデトックス化ソリューションを設計するための一般的なアプローチである。
しかし、これらの手法は微調整を必要とし、計算オーバーヘッドを発生させる。
本稿では,GPT-3.5 Turbo を用いたテキストデトキシフィケーションのためのアクシデントベースのインコンテキスト学習のためのフレームワークとして GPT-DETOX を提案する。
ゼロショットと少数ショットのプロンプト技術を用いて、入力文のデトックス化を行う。
本稿では,単語マッチング例選択(WMES)と文脈マッチング例選択(CMES)の2つの手法を提案する。
また,アンサンブルをゼロショットと複数ショット設定によるベースプロンプトによって形作る,コンテキスト内学習(EICL)も考慮する。
ベンチマークデトキシフィケーションデータセットとしてParaDetoxとAPPDIAを使用している。
実験の結果,ゼロショットソリューションは有望な性能を達成し,最も優れた数ショット設定はParaDetoxの最先端モデルよりも優れ,APPDIAで同等の結果を示すことがわかった。
EICLソリューションは、両方のデータセットに対して、少なくとも10%の改善を加えて、最高のパフォーマンスを得る。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - DiffuDetox: A Mixed Diffusion Model for Text Detoxification [12.014080113339178]
テキストデトックス化は、有害なテキストから攻撃的コンテンツを取り除くことを目的とした条件付きテキスト生成タスクである。
テキストデトックス化のための混合条件と非条件拡散モデルであるDiffuDetoxを提案する。
論文 参考訳(メタデータ) (2023-06-14T13:41:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Lex2Sent: A bagging approach to unsupervised sentiment analysis [0.628122931748758]
本稿では,テキストの分類方法として,Lex2Sentを提案する。
テキストを分類するために、文書埋め込みと適切な辞書の埋め込みの距離を決定するために埋め込みモデルを訓練する。
本稿では,このモデルがレキシカよりも優れており,バイナリ感情分析のタスクにおいて,高パフォーマンスな数発の微調整手法の基盤となることを示す。
論文 参考訳(メタデータ) (2022-09-26T20:49:18Z) - Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for
Multiple Toxic Span Extraction from Online Comments [1.332560004325655]
本稿では,SemEval-2021 Task 5: Toxic Spans DetectionのためのチームCiscoによって提案されたシステムについて述べる。
我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。
このアプローチにおける最高のパフォーマンスアーキテクチャもまた、F1スコア0.6922で、全体として最高のパフォーマンスアーキテクチャであることを証明しました。
論文 参考訳(メタデータ) (2021-05-28T16:27:49Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。