論文の概要: Efficient Models for the Detection of Hate, Abuse and Profanity
- arxiv url: http://arxiv.org/abs/2402.05624v1
- Date: Thu, 8 Feb 2024 12:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:17:48.961998
- Title: Efficient Models for the Detection of Hate, Abuse and Profanity
- Title(参考訳): 憎しみ・虐待・嫌悪の検出のための効率的なモデル
- Authors: Christoph Tillmann, Aashka Trivedi, Bishwaranjan Bhattacharjee
- Abstract要約: 大規模言語モデル(LLM)は、感情分析、文書分類、名前付きエンティティ認識、質問応答、要約など、多くの自然言語処理(NLP)タスクの基盤である。
- 参考スコア(独自算出の注目度): 2.2730792434226763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are the cornerstone for many Natural Language
Processing (NLP) tasks like sentiment analysis, document classification, named
entity recognition, question answering, summarization, etc. LLMs are often
trained on data which originates from the web. This data is prone to having
content with Hate, Abuse and Profanity (HAP). For a detailed definition of HAP,
please refer to the Appendix. Due to the LLMs being exposed to HAP content
during training, the models learn it and may then generate hateful or profane
content. For example, when the open-source RoBERTa model (specifically, the
RoBERTA base model) from the HuggingFace (HF) Transformers library is prompted
to replace the mask token in `I do not know that Persian people are that MASK`
it returns the word `stupid` with the highest score. This is unacceptable in
civil discourse.The detection of Hate, Abuse and Profanity in text is a vital
component of creating civil and unbiased LLMs, which is needed not only for
English, but for all languages. In this article, we briefly describe the
creation of HAP detectors and various ways of using them to make models civil
and acceptable in the output they generate.
- Abstract(参考訳): 大規模言語モデル(LLM)は、感情分析、文書分類、名前付きエンティティ認識、質問応答、要約など、多くの自然言語処理(NLP)タスクの基盤である。
LLMはWebから派生したデータに基づいて訓練されることが多い。
このデータは、Hate, Abuse and Profanity (HAP)とコンテンツを持つ傾向にある。
HAPの詳細な定義については、Appendixを参照してください。
LLMはトレーニング中にHAPコンテンツに曝されるため、モデルは学習し、憎悪や憎悪のコンテンツを生成する可能性がある。
例えば、HuggingFace (HF) TransformersライブラリのオープンソースのRoBERTaモデル(具体的にはRoBERTAベースモデル)は、"I don't know that Persian people are that MASK` that it return the word `stupid` with the highest score"の仮面トークンを置き換えるように促される。
これは文言では受け入れられないが、Hate, Abuse, Profanityをテキストで検出することは、英語だけでなく、すべての言語で必要となる公民的かつ偏見のない LLM を作成する上で不可欠な要素である。
本稿では,hap検出器の作成と,それらを用いてモデルが生成する出力を公民的かつ許容可能なものにする方法について,簡単な説明を行う。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - Harnessing Artificial Intelligence to Combat Online Hate: Exploring the
Challenges and Opportunities of Large Language Models in Hate Speech
Detection [4.653571633477755]
大規模言語モデル(LLM)は、翻訳、要約、感情分析など、言語生成以外の多くの多様なアプリケーションで優れている。
このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-03-12T19:12:28Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Warped Language Models for Noise Robust Language Understanding [11.017026606760728]
Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋める自己教師型ニューラルネットワークである。
本稿では,WLM上に構築された自然言語理解システムが,対話型言語よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。