論文の概要: An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software
- arxiv url: http://arxiv.org/abs/2308.09810v1
- Date: Fri, 18 Aug 2023 20:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:51:16.060324
- Title: An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software
- Title(参考訳): 画像は数千の有害単語の価値:コンテンツモデレーションソフトウェアのためのメタモルフィックテスティングフレームワーク
- Authors: Wenxuan Wang, Jingyuan Huang, Jen-tse Huang, Chang Chen, Jiazhen Gu,
Pinjia He, Michael R. Lyu
- Abstract要約: ソーシャルメディアプラットフォームは、ヘイトスピーチ、悪意のある広告、ポルノなど、有害なコンテンツを拡散するためにますます悪用されている。
コンテンツモデレーション手法の開発と展開に多大な努力を払っているにもかかわらず、悪意のあるユーザは、テキストを画像に埋め込むことでモデレーションを回避することができる。
コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.367830425115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of social media platforms has brought about a
revolution in communication and content dissemination in human society.
Nevertheless, these platforms are being increasingly misused to spread toxic
content, including hate speech, malicious advertising, and pornography, leading
to severe negative consequences such as harm to teenagers' mental health.
Despite tremendous efforts in developing and deploying textual and image
content moderation methods, malicious users can evade moderation by embedding
texts into images, such as screenshots of the text, usually with some
interference. We find that modern content moderation software's performance
against such malicious inputs remains underexplored. In this work, we propose
OASIS, a metamorphic testing framework for content moderation software. OASIS
employs 21 transform rules summarized from our pilot study on 5,000 real-world
toxic contents collected from 4 popular social media applications, including
Twitter, Instagram, Sina Weibo, and Baidu Tieba. Given toxic textual contents,
OASIS can generate image test cases, which preserve the toxicity yet are likely
to bypass moderation. In the evaluation, we employ OASIS to test five
commercial textual content moderation software from famous companies (i.e.,
Google Cloud, Microsoft Azure, Baidu Cloud, Alibaba Cloud and Tencent Cloud),
as well as a state-of-the-art moderation research model. The results show that
OASIS achieves up to 100% error finding rates. Moreover, through retraining the
models with the test cases generated by OASIS, the robustness of the moderation
model can be improved without performance degradation.
- Abstract(参考訳): ソーシャルメディアプラットフォームの急速な成長は、人間社会におけるコミュニケーションとコンテンツの普及に革命をもたらした。
それにもかかわらず、これらのプラットフォームはヘイトスピーチ、悪意のある広告、ポルノなど有害なコンテンツの拡散に悪用され、ティーンエイジャーのメンタルヘルスへの害など深刻なネガティブな結果をもたらしている。
テキストコンテンツや画像コンテンツのモデレーション手法の開発とデプロイに多大な努力をしたが、悪意のあるユーザーはテキストのスクリーンショットのような画像にテキストを埋め込むことでモデレーションを回避することができる。
このような悪意のある入力に対する現代のコンテンツモデレーションソフトウェアの性能はいまだ探索されていない。
本稿では,コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークであるOASISを提案する。
OASISは、Twitter、Instagram、Sina Weibo、Baidu Tiebaを含む4つのソーシャルメディアアプリケーションから収集された5000の現実世界の有害コンテンツに関するパイロット研究から要約した21のトランスフォーメーションルールを採用しています。
有毒なテキストの内容から、OASISは画像検査ケースを生成できるが、毒性は保たれるが、モデレーションを回避できる可能性がある。
評価では、OASISを使用して、有名な企業(Google Cloud、Microsoft Azure、Baidu Cloud、Alibaba Cloud、Tencent Cloudなど)の5つの商用テキストコンテンツモデレーションソフトウェアと、最先端のモデレーション調査モデルをテストする。
その結果,oasisは最大100%のエラー検出率を達成した。
さらに、OASISが生成したテストケースでモデルを再トレーニングすることで、性能劣化なしにモデレーションモデルの堅牢性を向上させることができる。
関連論文リスト
- Advancing Content Moderation: Evaluating Large Language Models for Detecting Sensitive Content Across Text, Images, and Videos [0.1399948157377307]
政府、教育者、そして親はしばしば、そのようなコンテンツの拡散を規制し、制御し、制限する方法についてメディアプラットフォームと対立している。
自然言語処理やコンピュータビジョンといった技術は、センシティブなコンテンツを自動的に識別し、フィルタリングするために広く使われている。
テキストと画像の両方のコンテキストを理解するためのより洗練されたアルゴリズムは、コンテンツ検閲の改善のための部屋を開くかもしれない。
論文 参考訳(メタデータ) (2024-11-26T05:29:18Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Content Moderation on Social Media in the EU: Insights From the DSA
Transparency Database [0.0]
デジタルサービス法(DSA)は、EU内の大規模なソーシャルメディアプラットフォームに対して、特定のコンテンツへのアクセスを制限するたびに明確で具体的な情報を提供することを要求する。
Reasons(SoR)のステートメントは、コンテンツモデレーション決定の透明性と精査を保証するために、DSA Transparency Databaseに収集される。
われわれは、EUのソーシャルメディアプラットフォームにおけるコンテンツモデレーション決定を早期に検討するため、2ヶ月の観察期間内に1億5600万のSoRを実証分析した。
論文 参考訳(メタデータ) (2023-12-07T16:56:19Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - DeepfakeArt Challenge: A Benchmark Dataset for Generative AI Art Forgery and Data Poisoning Detection [57.51313366337142]
悪意ある目的のために生成的AIを使用することについて懸念が高まっている。
生成AIを用いた視覚コンテンツ合成の領域では、画像偽造とデータ中毒が重要な関心事となっている。
DeepfakeArt Challenge(ディープフェイクアートチャレンジ)は、AIアートのジェネレーションとデータ中毒検出のための機械学習アルゴリズムの構築を支援するために設計された、大規模なチャレンジベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-06-02T05:11:27Z) - Validating Multimedia Content Moderation Software via Semantic Fusion [16.322773343799575]
本稿では,マルチメディアコンテンツモデレーションソフトウェアの検証方法として,セマンティックフュージョンを紹介する。
5種類の商用コンテンツモデレーションソフトウェアと2種類の最先端モデルを3種類の有毒コンテンツに対してテストするためにDUOを使用している。
その結果,モード化ソフトウェアのテストでは,最大100%エラー検出率(EFR)が達成されることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:44:15Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - MTTM: Metamorphic Testing for Textual Content Moderation Software [11.759353169546646]
ソーシャルメディアプラットフォームは、有害なコンテンツを広めるためにますます利用されてきた。
悪意のあるユーザは、有害なコンテンツの中で数単語だけを変更することで、モデレーションを回避することができる。
テキストコンテンツモデレーションソフトウェアのためのメタモルフィックテスティングフレームワークMTTMを提案する。
論文 参考訳(メタデータ) (2023-02-11T14:44:39Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。