Fugu-MT 論文翻訳(概要): You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

論文の概要: You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

arxiv url: http://arxiv.org/abs/2308.05596v1
Date: Thu, 10 Aug 2023 14:14:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 12:20:25.311371
Title: You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content
Title（参考訳）: 一度だけプロンプトする: 有害なコンテンツに取り組むために、大きな言語モデルで素早く学習する能力について
Authors: Xinlei He and Savvas Zannettou and Yun Shen and Yang Zhang
Abstract要約: 大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。 1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
参考スコア（独自算出の注目度）: 13.600755614321493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The spread of toxic content online is an important problem that has adverse effects on user experience online and in our society at large. Motivated by the importance and impact of the problem, research focuses on developing solutions to detect toxic content, usually leveraging machine learning (ML) models trained on human-annotated datasets. While these efforts are important, these models usually do not generalize well and they can not cope with new trends (e.g., the emergence of new toxic terms). Currently, we are witnessing a shift in the approach to tackling societal issues online, particularly leveraging large language models (LLMs) like GPT-3 or T5 that are trained on vast corpora and have strong generalizability. In this work, we investigate how we can use LLMs and prompt learning to tackle the problem of toxic content, particularly focusing on three tasks; 1) Toxicity Classification, 2) Toxic Span Detection, and 3) Detoxification. We perform an extensive evaluation over five model architectures and eight datasets demonstrating that LLMs with prompt learning can achieve similar or even better performance compared to models trained on these specific tasks. We find that prompt learning achieves around 10\% improvement in the toxicity classification task compared to the baselines, while for the toxic span detection task we find better performance to the best baseline (0.643 vs. 0.640 in terms of $F_1$-score). Finally, for the detoxification task, we find that prompt learning can successfully reduce the average toxicity score (from 0.775 to 0.213) while preserving semantic meaning.
Abstract（参考訳）: オンライン上の有害コンテンツの拡散は、オンラインおよび社会全体においてユーザエクスペリエンスに悪影響を及ぼす重要な問題である。問題の重要性と影響に動機づけられた研究は、有毒なコンテンツを検出するソリューションの開発に重点を置いており、通常は人間の注釈付きデータセットに基づいてトレーニングされた機械学習(ML)モデルを活用する。これらの試みは重要であるが、これらのモデルは一般的には一般化せず、新しい傾向(例えば新しい有毒な用語の出現)に対処できない。 GPT-3やT5のような巨大な言語モデル(LLM)を活用して、大規模なコーパスでトレーニングし、強力な一般化性を実現しています。本研究では,LSMを用いて有害なコンテンツ,特に3つの課題に焦点をあてる学習を迅速に行う方法について検討する。 1)毒性分類 2)毒性スパン検出、及び 3)解毒。 5つのモデルアーキテクチャと8つのデータセットについて広範な評価を行い、これらの特定のタスクでトレーニングされたモデルと比較して、迅速な学習を伴うllmが同等あるいはそれ以上のパフォーマンスを達成できることを実証した。プロンプト・ラーニングは毒性分類タスクをベースラインと比較して約10-%改善するが、毒性スパン検出タスクでは最高のベースライン($f_1$-scoreで0.643対0.640)のパフォーマンスが向上する。最後に, 解毒作業において, 素早い学習が意味を保ちながら, 平均毒性スコア(0.775から0.213)を下げることができた。

関連論文リスト

Enhancing LLM-based Hatred and Toxicity Detection with Meta-Toxic Knowledge Graph [36.07351851458233]
ドメイン固有の有毒な知識の欠如は、偽陰性を引き起こす。有害な音声に対する大規模言語モデルの過度な感度は、偽陽性をもたらす。メタ有害知識グラフ上でのグラフ検索を利用して,憎悪や毒性を検出するメタトックスと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-17T06:28:28Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。 ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文参考訳（メタデータ） (2024-10-05T13:30:33Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文参考訳（メタデータ） (2024-05-17T09:42:59Z)
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。本手法は,様々なベンチマーク上での局所モデル性能を向上させる。また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文参考訳（メタデータ） (2024-03-15T14:36:38Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models [29.505176809305095]
本稿では,その実用性を損なうことなく,モデル毒性を大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。以上の結果から,最も優れた性能戦略(INST)は,5つのベンチマークNLPタスクの精度を維持しつつ,毒性の確率を61%まで大幅に低下させることが示唆された。
論文参考訳（メタデータ） (2023-02-14T23:00:42Z)
Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。モデル非依存の語彙置換が性能を著しく損なうことを示す。毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文参考訳（メタデータ） (2022-01-17T12:48:27Z)
ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文参考訳（メタデータ） (2021-03-01T22:17:10Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。