Fugu-MT 論文翻訳(概要): Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators

論文の概要: Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators

arxiv url: http://arxiv.org/abs/2311.07879v4
Date: Wed, 13 Nov 2024 15:45:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.759944
Title: Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators
Title（参考訳）: 毒性検出は必要ではない:ボランティアコンテンツモデレータをサポートするためのギャップの測定
Authors: Yang Trista Cao, Lovely-Frances Domingo, Sarah Ann Gilbert, Michelle Mazurek, Katie Shilton, Hal Daumé III,
Abstract要約: 我々はHugging Faceでモデルレビューを行い、様々なモデレーションルールとガイドラインをカバーするモデルの有効性を明らかにする。テストに最先端のLLMを配置し、これらのモデルが特定のフォーラムからプラットフォームルールに違反していると警告する上で、いかにうまく機能するかを評価します。概して、未発達のモデルとLLMは、ルールのかなりの部分で中程度から低い性能を示すため、非自明なギャップを観察する。
参考スコア（独自算出の注目度）: 19.401873797111662
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Extensive efforts in automated approaches for content moderation have been focused on developing models to identify toxic, offensive, and hateful content with the aim of lightening the load for moderators. Yet, it remains uncertain whether improvements on those tasks have truly addressed moderators' needs in accomplishing their work. In this paper, we surface gaps between past research efforts that have aimed to provide automation for aspects of content moderation and the needs of volunteer content moderators, regarding identifying violations of various moderation rules. To do so, we conduct a model review on Hugging Face to reveal the availability of models to cover various moderation rules and guidelines from three exemplar forums. We further put state-of-the-art LLMs to the test, evaluating how well these models perform in flagging violations of platform rules from one particular forum. Finally, we conduct a user survey study with volunteer moderators to gain insight into their perspectives on useful moderation models. Overall, we observe a non-trivial gap, as missing developed models and LLMs exhibit moderate to low performance on a significant portion of the rules. Moderators' reports provide guides for future work on developing moderation assistant models.
Abstract（参考訳）: コンテンツモデレーションの自動化アプローチにおける広範な取り組みは、モデレーターの負荷を軽減することを目的として、有害、攻撃的、ヘイトフルなコンテンツを特定するモデルの開発に重点を置いている。しかし、これらのタスクの改善が、モデレーターのニーズに本当に対処したのかは、まだ不明である。本稿では、コンテンツモデレーションの面での自動化を目的とした過去の研究成果と、様々なモデレーションルール違反の特定に関して、ボランティアコンテンツモデレーターのニーズとの間にギャップを生じさせる。そこで我々はHugging Faceのモデルレビューを行い、3つの典型的なフォーラムから様々なモデレーションルールとガイドラインをカバーしたモデルの可用性を明らかにする。さらに、テストに最先端のLLMを適用し、これらのモデルが特定のフォーラムからプラットフォームルールの違反を警告する上で、いかにうまく機能するかを評価します。最後に、ボランティアモデレーターによるユーザ調査を行い、有用なモデレーションモデルに対する視点について考察する。概して、未発達のモデルとLLMは、ルールのかなりの部分で中程度から低い性能を示すため、非自明なギャップを観察する。モデレーターのレポートは、モデレーターアシスタントモデルの開発に向けた将来の取り組みのガイドを提供する。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Moderator: Moderating Text-to-Image Diffusion Models through Fine-grained Context-based Policies [11.085388940369851]
我々は、管理者が細かいコンテンツモデレーションポリシーを指定できるポリシーベースのモデル管理システムであるModeratorを提案する。モデレーターは、15回の試行で65%のユーザが適度なコンテンツを生成するのを防ぎ、残りのユーザーに対して平均8.3倍の望ましくないコンテンツを生成することを要求している。
論文参考訳（メタデータ） (2024-08-14T16:44:46Z)
Can Language Model Moderators Improve the Health of Online Discourse? [26.191337231826246]
我々は,モデレーション文献に基づく会話モデレーションの有効性の体系的定義を確立する。本研究では,人間の介入とは無関係にモデルのモデレーション能力を評価するための総合的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-16T11:14:22Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
Towards Intersectional Moderation: An Alternative Model of Moderation Built on Care and Power [0.4351216340655199]
代替モデレーションモデルを用いたコミュニティであるr/AskHistoriansのモデレーターと共同でエスノグラフィを行う。 r/AskHistorianの別のモデレーションモデルに関する3つの象徴的な議論に焦点をあてる。私は、デザイナが意思決定プロセスをサポートするべきであり、政策立案者は社会技術システムの影響を考慮すべきだと論じます。
論文参考訳（メタデータ） (2023-05-18T18:27:52Z)
Multilingual Content Moderation: A Case Study on Reddit [23.949429463013796]
Redditのコメント18万件の多言語データセットを導入し,コンテンツモデレーションの課題について検討する。我々は、基礎となる課題を強調し、関連する研究課題を提案するために、広範な実験分析を行う。私たちのデータセットと分析は、オートモデレーションの課題と機会に備えるのに役立ちます。
論文参考訳（メタデータ） (2023-02-19T16:36:33Z)
Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文参考訳（メタデータ） (2022-10-06T03:33:30Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。