論文の概要: Watch Your Language: Large Language Models and Content Moderation
- arxiv url: http://arxiv.org/abs/2309.14517v1
- Date: Mon, 25 Sep 2023 20:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:44:07.074484
- Title: Watch Your Language: Large Language Models and Content Moderation
- Title(参考訳): 言語に注目して - 大規模言語モデルとコンテンツモデレーション
- Authors: Deepak Kumar, Yousef AbuHashem, Zakir Durumeric
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクを実行する能力によって、人気が高まっている。
我々は,ルールベースのコミュニティ・モデレーションと有毒なコンテンツ検出という2つの共通コンテンツモデレーションタスクに対して,現代的で商業的なLCMのスイートを評価した。
- 参考スコア(独自算出の注目度): 5.306187298781318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exploded in popularity due to their ability
to perform a wide array of natural language tasks. Text-based content
moderation is one LLM use case that has received recent enthusiasm, however,
there is little research investigating how LLMs perform in content moderation
settings. In this work, we evaluate a suite of modern, commercial LLMs (GPT-3,
GPT-3.5, GPT-4) on two common content moderation tasks: rule-based community
moderation and toxic content detection. For rule-based community moderation, we
construct 95 LLM moderation-engines prompted with rules from 95 Reddit
subcommunities and find that LLMs can be effective at rule-based moderation for
many communities, achieving a median accuracy of 64% and a median precision of
83%. For toxicity detection, we find that LLMs significantly outperform
existing commercially available toxicity classifiers. However, we also find
that recent increases in model size add only marginal benefit to toxicity
detection, suggesting a potential performance plateau for LLMs on toxicity
detection tasks. We conclude by outlining avenues for future work in studying
LLMs and content moderation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクを実行する能力によって、人気が高まっている。
テキストベースのコンテンツモデレーションは、最近の熱意を受けたllmのユースケースの1つだが、コンテンツモデレーション設定におけるllmのパフォーマンスに関する研究はほとんどない。
本研究では,ルールベースのコミュニティ・モデレーションと有害なコンテンツ検出という2つの共通コンテンツモデレーションタスクに対して,現代の商用LCM (GPT-3, GPT-3.5, GPT-4) のスイートを評価する。
ルールベースのコミュニティモデレーションでは、95のRedditサブコミュニティからルールを誘導される95のLCMモデレーションエンジンを構築し、ルールベースのモデレーションでは多くのコミュニティで有効であり、中央値の精度は64%、中央値の精度は83%である。
毒性検出では、LCMは既存の市販毒性分類器よりも著しく優れていた。
しかし,近年のモデルサイズの増加は毒性検出に限界的な利点しか与えられず,llmによる毒性検出タスクの性能向上の可能性も示唆された。
我々は、LCMとコンテンツモデレーションの研究における今後の研究の道筋を概説する。
関連論文リスト
- Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。
10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。
次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文 参考訳(メタデータ) (2024-11-17T03:53:24Z) - Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。
この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-31T22:21:04Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content [13.600755614321493]
大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。
1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。
その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
論文 参考訳(メタデータ) (2023-08-10T14:14:13Z) - Systematic Rectification of Language Models via Dead-end Analysis [34.37598463459319]
大型言語モデル(LLM)は有害な談話を生成するためにプッシュされる。
ここでは、完了した談話が最終的に有毒と考えられる確率について、デトックス化を中心とする。
我々の手法は整流化と呼ばれ、別個のモデルを用いるが、デトキシ化には著しく小さいモデルを用いる。
論文 参考訳(メタデータ) (2023-02-27T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。