論文の概要: You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content
- arxiv url: http://arxiv.org/abs/2308.05596v1
- Date: Thu, 10 Aug 2023 14:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:20:25.311371
- Title: You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content
- Title(参考訳): 一度だけプロンプトする: 有害なコンテンツに取り組むために、大きな言語モデルで素早く学習する能力について
- Authors: Xinlei He and Savvas Zannettou and Yun Shen and Yang Zhang
- Abstract要約: 大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。
1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。
その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
- 参考スコア(独自算出の注目度): 13.600755614321493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of toxic content online is an important problem that has adverse
effects on user experience online and in our society at large. Motivated by the
importance and impact of the problem, research focuses on developing solutions
to detect toxic content, usually leveraging machine learning (ML) models
trained on human-annotated datasets. While these efforts are important, these
models usually do not generalize well and they can not cope with new trends
(e.g., the emergence of new toxic terms). Currently, we are witnessing a shift
in the approach to tackling societal issues online, particularly leveraging
large language models (LLMs) like GPT-3 or T5 that are trained on vast corpora
and have strong generalizability. In this work, we investigate how we can use
LLMs and prompt learning to tackle the problem of toxic content, particularly
focusing on three tasks; 1) Toxicity Classification, 2) Toxic Span Detection,
and 3) Detoxification. We perform an extensive evaluation over five model
architectures and eight datasets demonstrating that LLMs with prompt learning
can achieve similar or even better performance compared to models trained on
these specific tasks. We find that prompt learning achieves around 10\%
improvement in the toxicity classification task compared to the baselines,
while for the toxic span detection task we find better performance to the best
baseline (0.643 vs. 0.640 in terms of $F_1$-score). Finally, for the
detoxification task, we find that prompt learning can successfully reduce the
average toxicity score (from 0.775 to 0.213) while preserving semantic meaning.
- Abstract(参考訳): オンライン上の有害コンテンツの拡散は、オンラインおよび社会全体においてユーザエクスペリエンスに悪影響を及ぼす重要な問題である。
問題の重要性と影響に動機づけられた研究は、有毒なコンテンツを検出するソリューションの開発に重点を置いており、通常は人間の注釈付きデータセットに基づいてトレーニングされた機械学習(ML)モデルを活用する。
これらの試みは重要であるが、これらのモデルは一般的には一般化せず、新しい傾向(例えば新しい有毒な用語の出現)に対処できない。
GPT-3やT5のような巨大な言語モデル(LLM)を活用して、大規模なコーパスでトレーニングし、強力な一般化性を実現しています。
本研究では,LSMを用いて有害なコンテンツ,特に3つの課題に焦点をあてる学習を迅速に行う方法について検討する。
1)毒性分類
2)毒性スパン検出、及び
3)解毒。
5つのモデルアーキテクチャと8つのデータセットについて広範な評価を行い、これらの特定のタスクでトレーニングされたモデルと比較して、迅速な学習を伴うllmが同等あるいはそれ以上のパフォーマンスを達成できることを実証した。
プロンプト・ラーニングは毒性分類タスクをベースラインと比較して約10-%改善するが、毒性スパン検出タスクでは最高のベースライン($f_1$-scoreで0.643対0.640)のパフォーマンスが向上する。
最後に, 解毒作業において, 素早い学習が意味を保ちながら, 平均毒性スコア(0.775から0.213)を下げることができた。
関連論文リスト
- AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。
膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。
本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文 参考訳(メタデータ) (2024-05-17T09:42:59Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Adding Instructions during Pretraining: Effective Way of Controlling
Toxicity in Language Models [29.505176809305095]
本稿では,その実用性を損なうことなく,モデル毒性を大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。
この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。
以上の結果から,最も優れた性能戦略(INST)は,5つのベンチマークNLPタスクの精度を維持しつつ,毒性の確率を61%まで大幅に低下させることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T23:00:42Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文 参考訳(メタデータ) (2021-03-01T22:17:10Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。