論文の概要: MTTM: Metamorphic Testing for Textual Content Moderation Software
- arxiv url: http://arxiv.org/abs/2302.05706v1
- Date: Sat, 11 Feb 2023 14:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:00:08.431308
- Title: MTTM: Metamorphic Testing for Textual Content Moderation Software
- Title(参考訳): MTTM:テキストコンテンツモデレーションソフトウェアのためのメタモルフィックテスト
- Authors: Wenxuan Wang, Jen-tse Huang, Weibin Wu, Jianping Zhang, Yizhan Huang,
Shuqing Li, Pinjia He, Michael Lyu
- Abstract要約: ソーシャルメディアプラットフォームは、有害なコンテンツを広めるためにますます利用されてきた。
悪意のあるユーザは、有害なコンテンツの中で数単語だけを変更することで、モデレーションを回避することができる。
テキストコンテンツモデレーションソフトウェアのためのメタモルフィックテスティングフレームワークMTTMを提案する。
- 参考スコア(独自算出の注目度): 11.759353169546646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of social media platforms such as Twitter and Facebook
has revolutionized textual communication and textual content publication in
human society. However, they have been increasingly exploited to propagate
toxic content, such as hate speech, malicious advertisement, and pornography,
which can lead to highly negative impacts (e.g., harmful effects on teen mental
health). Researchers and practitioners have been enthusiastically developing
and extensively deploying textual content moderation software to address this
problem. However, we find that malicious users can evade moderation by changing
only a few words in the toxic content. Moreover, modern content moderation
software performance against malicious inputs remains underexplored. To this
end, we propose MTTM, a Metamorphic Testing framework for Textual content
Moderation software. Specifically, we conduct a pilot study on 2,000 text
messages collected from real users and summarize eleven metamorphic relations
across three perturbation levels: character, word, and sentence. MTTM employs
these metamorphic relations on toxic textual contents to generate test cases,
which are still toxic yet likely to evade moderation. In our evaluation, we
employ MTTM to test three commercial textual content moderation software and
two state-of-the-art moderation algorithms against three kinds of toxic
content. The results show that MTTM achieves up to 83.9%, 51%, and 82.5% error
finding rates (EFR) when testing commercial moderation software provided by
Google, Baidu, and Huawei, respectively, and it obtains up to 91.2% EFR when
testing the state-of-the-art algorithms from the academy. In addition, we
leverage the test cases generated by MTTM to retrain the model we explored,
which largely improves model robustness (0% to 5.9% EFR) while maintaining the
accuracy on the original test set.
- Abstract(参考訳): TwitterやFacebookといったソーシャルメディアプラットフォームの急速な成長は、人間の社会におけるテキストコミュニケーションとテキストコンテンツ出版に革命をもたらした。
しかし、ヘイトスピーチ、悪意のある広告、ポルノグラフィなどの有害なコンテンツを広めるために利用され、非常にネガティブな影響(例えば、ティーンのメンタルヘルスに有害な影響)をもたらす可能性がある。
研究者や実践者はこの問題に対処するためにテキストコンテンツモデレーションソフトウェアを熱心に開発し、広範囲に展開してきた。
しかし、悪意のあるユーザは、有害なコンテンツの中でほんの数単語だけを変えることで、モデレーションを回避することができる。
さらに、悪質な入力に対する現代のコンテンツモデレーションソフトウェアのパフォーマンスは未検討のままである。
そこで本研究では,テキストコンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークであるmttmを提案する。
具体的には,実ユーザから収集した2000のテキストについてパイロット研究を行い,文字,単語,文の3つの摂動レベルにわたる11の変成関係を要約した。
MTTMはこれらのメタモルフィックな関係を有毒なテキストの内容に応用し、テストケースを生成する。
本評価では,mttmを用いて3種類の有害コンテンツに対する3つの商用テキストコンテンツモデレーションソフトウェアと2つの最先端モデレーションアルゴリズムをテストした。
その結果、mttmは、google、baidu、huaweiが提供する商用モデレーションソフトウェアをテストした場合、83.9%、51%、82.5%のエラー検出率(efr)を達成し、アカデミーから最先端アルゴリズムをテストする場合、最大91.2%のefrを得た。
さらに、MTTMが生成したテストケースを利用して、探索したモデルを再トレーニングし、元のテストセットの精度を維持しながら、モデルの堅牢性(0%から5.9% EFR)を大幅に改善します。
関連論文リスト
- Automated Testing for Text-to-Image Software [0.0]
ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。
本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。
その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T11:19:23Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software [64.367830425115]
ソーシャルメディアプラットフォームは、ヘイトスピーチ、悪意のある広告、ポルノなど、有害なコンテンツを拡散するためにますます悪用されている。
コンテンツモデレーション手法の開発と展開に多大な努力を払っているにもかかわらず、悪意のあるユーザは、テキストを画像に埋め込むことでモデレーションを回避することができる。
コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T20:33:06Z) - Validating Multimedia Content Moderation Software via Semantic Fusion [16.322773343799575]
本稿では,マルチメディアコンテンツモデレーションソフトウェアの検証方法として,セマンティックフュージョンを紹介する。
5種類の商用コンテンツモデレーションソフトウェアと2種類の最先端モデルを3種類の有毒コンテンツに対してテストするためにDUOを使用している。
その結果,モード化ソフトウェアのテストでは,最大100%エラー検出率(EFR)が達成されることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:44:15Z) - NoisyHate: Benchmarking Content Moderation Machine Learning Models with
Human-Written Perturbations Online [14.95221806760152]
本稿では,有毒な音声検出モデルのための人手による摂動を含むベンチマークテストセットを提案する。
また、このデータをBERTやRoBERTaといった最先端の言語モデル上でテストし、実際の人間による摂動による敵攻撃が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-18T14:54:57Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。