論文の概要: You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content
- arxiv url: http://arxiv.org/abs/2308.05596v1
- Date: Thu, 10 Aug 2023 14:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:20:25.311371
- Title: You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content
- Title(参考訳): 一度だけプロンプトする: 有害なコンテンツに取り組むために、大きな言語モデルで素早く学習する能力について
- Authors: Xinlei He and Savvas Zannettou and Yun Shen and Yang Zhang
- Abstract要約: 大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。
1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。
その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
- 参考スコア(独自算出の注目度): 13.600755614321493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of toxic content online is an important problem that has adverse
effects on user experience online and in our society at large. Motivated by the
importance and impact of the problem, research focuses on developing solutions
to detect toxic content, usually leveraging machine learning (ML) models
trained on human-annotated datasets. While these efforts are important, these
models usually do not generalize well and they can not cope with new trends
(e.g., the emergence of new toxic terms). Currently, we are witnessing a shift
in the approach to tackling societal issues online, particularly leveraging
large language models (LLMs) like GPT-3 or T5 that are trained on vast corpora
and have strong generalizability. In this work, we investigate how we can use
LLMs and prompt learning to tackle the problem of toxic content, particularly
focusing on three tasks; 1) Toxicity Classification, 2) Toxic Span Detection,
and 3) Detoxification. We perform an extensive evaluation over five model
architectures and eight datasets demonstrating that LLMs with prompt learning
can achieve similar or even better performance compared to models trained on
these specific tasks. We find that prompt learning achieves around 10\%
improvement in the toxicity classification task compared to the baselines,
while for the toxic span detection task we find better performance to the best
baseline (0.643 vs. 0.640 in terms of $F_1$-score). Finally, for the
detoxification task, we find that prompt learning can successfully reduce the
average toxicity score (from 0.775 to 0.213) while preserving semantic meaning.
- Abstract(参考訳): オンライン上の有害コンテンツの拡散は、オンラインおよび社会全体においてユーザエクスペリエンスに悪影響を及ぼす重要な問題である。
問題の重要性と影響に動機づけられた研究は、有毒なコンテンツを検出するソリューションの開発に重点を置いており、通常は人間の注釈付きデータセットに基づいてトレーニングされた機械学習(ML)モデルを活用する。
これらの試みは重要であるが、これらのモデルは一般的には一般化せず、新しい傾向(例えば新しい有毒な用語の出現)に対処できない。
GPT-3やT5のような巨大な言語モデル(LLM)を活用して、大規模なコーパスでトレーニングし、強力な一般化性を実現しています。
本研究では,LSMを用いて有害なコンテンツ,特に3つの課題に焦点をあてる学習を迅速に行う方法について検討する。
1)毒性分類
2)毒性スパン検出、及び
3)解毒。
5つのモデルアーキテクチャと8つのデータセットについて広範な評価を行い、これらの特定のタスクでトレーニングされたモデルと比較して、迅速な学習を伴うllmが同等あるいはそれ以上のパフォーマンスを達成できることを実証した。
プロンプト・ラーニングは毒性分類タスクをベースラインと比較して約10-%改善するが、毒性スパン検出タスクでは最高のベースライン($f_1$-scoreで0.643対0.640)のパフォーマンスが向上する。
最後に, 解毒作業において, 素早い学習が意味を保ちながら, 平均毒性スコア(0.775から0.213)を下げることができた。
関連論文リスト
- Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Adding Instructions during Pretraining: Effective Way of Controlling
Toxicity in Language Models [29.505176809305095]
本稿では,その実用性を損なうことなく,モデル毒性を大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。
この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。
以上の結果から,最も優れた性能戦略(INST)は,5つのベンチマークNLPタスクの精度を維持しつつ,毒性の確率を61%まで大幅に低下させることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T23:00:42Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文 参考訳(メタデータ) (2021-03-01T22:17:10Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。