論文の概要: Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting
Volunteer Content Moderators
- arxiv url: http://arxiv.org/abs/2311.07879v1
- Date: Tue, 14 Nov 2023 03:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:44:30.554843
- Title: Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting
Volunteer Content Moderators
- Title(参考訳): 毒性検出は必要ではない:ボランティアコンテンツモデレータをサポートするためのギャップの測定
- Authors: Yang Trista Cao, Lovely-Frances Domingo, Sarah Ann Gilbert, Michelle
Mazurek, Katie Shilton, Hal Daum\'e III
- Abstract要約: 我々はHugging Faceでモデルレビューを行い、様々なモデレーションルールとガイドラインをカバーするモデルの有効性を明らかにする。
テスト(GPT-4とLlama-2)に最先端のLLMを配置し、これらのモデルがプラットフォームルール違反のフラグ付けにおいてどの程度うまく機能するかを評価する。
全体として、未発達のモデルやLLMがルールのかなりの部分で低いリコールを示すため、非自明なギャップが観察される。
- 参考スコア(独自算出の注目度): 4.347723584293261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extensive efforts in automated approaches for content moderation have been
focused on developing models to identify toxic, offensive, and hateful content
-- with the aim of lightening the load for moderators. Yet, it remains
uncertain whether improvements on those tasks truly address the needs that
moderators have in accomplishing their work. In this paper, we surface the gaps
between past research efforts that have aimed to provide automation for aspects
of the content moderation task, and the needs of volunteer content moderators.
To do so, we conduct a model review on Hugging Face to reveal the availability
of models to cover various moderation rules and guidelines. We further put
state-of-the-art LLMs to the test (GPT-4 and Llama-2), evaluating how well
these models perform in flagging violations of platform rules. Overall, we
observe a non-trivial gap, as missing developed models and LLMs exhibit low
recall on a significant portion of the rules.
- Abstract(参考訳): コンテンツモデレーションのための自動アプローチの広範な取り組みは、モデレーターの負荷を軽くするため、有害、不快、憎悪のコンテンツを特定するモデルの開発に焦点が当てられている。
しかし、これらのタスクの改善が、モデレーターが自分の仕事を成し遂げているニーズに本当に対処するかどうかは不明だ。
本稿では,コンテンツモデレーションタスクの面での自動化を目指してきた過去の研究成果と,ボランティアコンテンツモデレーターの必要性のギャップを明らかにする。
そのために,ハグフェイスに関するモデルレビューを実施し,様々なモデレーションルールとガイドラインをカバーするモデルの可用性を明らかにする。
さらに,テスト(GPT-4およびLlama-2)に最先端のLLMを適用し,これらのモデルがプラットフォームルール違反のフラグ付けにどの程度有効かを評価する。
全体として、未発達のモデルやLLMがルールのかなりの部分で低いリコールを示すため、非自明なギャップが観察される。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Moderator: Moderating Text-to-Image Diffusion Models through Fine-grained Context-based Policies [11.085388940369851]
我々は、管理者が細かいコンテンツモデレーションポリシーを指定できるポリシーベースのモデル管理システムであるModeratorを提案する。
モデレーターは、15回の試行で65%のユーザが適度なコンテンツを生成するのを防ぎ、残りのユーザーに対して平均8.3倍の望ましくないコンテンツを生成することを要求している。
論文 参考訳(メタデータ) (2024-08-14T16:44:46Z) - Can Language Model Moderators Improve the Health of Online Discourse? [26.191337231826246]
我々は,モデレーション文献に基づく会話モデレーションの有効性の体系的定義を確立する。
本研究では,人間の介入とは無関係にモデルのモデレーション能力を評価するための総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:14:22Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Towards Intersectional Moderation: An Alternative Model of Moderation
Built on Care and Power [0.4351216340655199]
代替モデレーションモデルを用いたコミュニティであるr/AskHistoriansのモデレーターと共同でエスノグラフィを行う。
r/AskHistorianの別のモデレーションモデルに関する3つの象徴的な議論に焦点をあてる。
私は、デザイナが意思決定プロセスをサポートするべきであり、政策立案者は社会技術システムの影響を考慮すべきだと論じます。
論文 参考訳(メタデータ) (2023-05-18T18:27:52Z) - Multilingual Content Moderation: A Case Study on Reddit [23.949429463013796]
Redditのコメント18万件の多言語データセットを導入し,コンテンツモデレーションの課題について検討する。
我々は、基礎となる課題を強調し、関連する研究課題を提案するために、広範な実験分析を行う。
私たちのデータセットと分析は、オートモデレーションの課題と機会に備えるのに役立ちます。
論文 参考訳(メタデータ) (2023-02-19T16:36:33Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。