論文の概要: Toxicity in the Decentralized Web and the Potential for Model Sharing
- arxiv url: http://arxiv.org/abs/2204.12709v1
- Date: Wed, 27 Apr 2022 05:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 16:30:19.767398
- Title: Toxicity in the Decentralized Web and the Potential for Model Sharing
- Title(参考訳): 分散ウェブにおける毒性とモデル共有の可能性
- Authors: Haris Bin Zia, Aravindh. Raman, Ignacio Castro, Ishaku Hassan Anaobi,
Emiliano De Cristofaro, Nishanth Sastry, Gareth Tyson
- Abstract要約: 分散Web(DW)は、さまざまなサービスを提供するために、ピアツーピア方式で連携する独立したサーバに依存しています。
Pleroma上の117Kユーザからの9.9Mポストのデータセットを用いて、有害なコンテンツの存在を定量化する。
インスタンス毎のコンテンツモデレーションの自動化は、十分なトレーニングデータやラベル付けに必要な労力が不足しているため、困難であることを示す。
- 参考スコア(独自算出の注目度): 7.499765577591378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "Decentralised Web" (DW) is an evolving concept, which encompasses
technologies aimed at providing greater transparency and openness on the web.
The DW relies on independent servers (aka instances) that mesh together in a
peer-to-peer fashion to deliver a range of services (e.g. micro-blogs, image
sharing, video streaming). However, toxic content moderation in this
decentralised context is challenging. This is because there is no central
entity that can define toxicity, nor a large central pool of data that can be
used to build universal classifiers. It is therefore unsurprising that there
have been several high-profile cases of the DW being misused to coordinate and
disseminate harmful material. Using a dataset of 9.9M posts from 117K users on
Pleroma (a popular DW microblogging service), we quantify the presence of toxic
content. We find that toxic content is prevalent and spreads rapidly between
instances. We show that automating per-instance content moderation is
challenging due to the lack of sufficient training data available and the
effort required in labelling. We therefore propose and evaluate ModPair, a
model sharing system that effectively detects toxic content, gaining an average
per-instance macro-F1 score 0.89.
- Abstract(参考訳): dw(decentralized web)は、web上の透明性とオープン性の向上を目的としたテクノロジを包含する、進化した概念である。
DWは、さまざまなサービス(マイクロブログ、画像共有、ビデオストリーミングなど)を提供するために、ピアツーピア方式で連携する独立したサーバ(別名インスタンス)に依存している。
しかし、この分散されたコンテキストにおける有害なコンテンツモデレーションは困難である。
これは、毒性を定義できる中心的な実体や、普遍的な分類器を構築するのに使用できるデータの大きな中央プールがないためである。
したがって、DWが有害物質を調整・拡散するために誤用されている例がいくつかあることは驚きではない。
Pleroma(人気のDWマイクロブログサービス)上の117Kユーザの9.9Mポストのデータセットを使用して、有毒なコンテンツの存在を定量化する。
有毒な内容が広まり、インスタンス間で急速に広がることが分かっています。
入力毎のコンテンツモデレーションの自動化は,十分なトレーニングデータやラベル付けに必要な労力が不足していることから困難である。
そこで我々は,有害成分を効果的に検出し,平均1インテンス当たりマクロf1スコア0.89を得るモデル共有システムmodpairを提案し,評価する。
関連論文リスト
- Algorithmic Arbitrariness in Content Moderation [1.4849645397321183]
コンテンツモデレーションツールは、サンプルを任意に有毒と分類する方法を示す。
我々は、国際公民権条約(ICCPR)が定める人権の観点からこれらの知見について議論する。
本研究は、コンテンツモデレーションアプリケーションにおいて、任意性の透明性を識別し、向上する必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-26T19:27:00Z) - Exploring ChatGPT for Toxicity Detection in GitHub [5.003898791753481]
しばしば有毒なコメントとして表されるネガティブな会話の頻度は、開発者の幸福と生産性に重大な課題をもたらします。
プロジェクトコミュニケーションにおいてこのような負性性を特定するためには, 自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
論文 参考訳(メタデータ) (2023-12-20T15:23:00Z) - Robust Domain Misinformation Detection via Multi-modal Feature Alignment [49.89164555394584]
マルチモーダルな誤情報検出のための頑健なドメインとクロスモーダルなアプローチを提案する。
テキストと視覚の共役分布を整列させることにより、ドメインシフトを低減する。
また,ドメイン一般化のアプリケーションシナリオを同時に検討するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-24T07:06:16Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - VDC: Versatile Data Cleanser for Detecting Dirty Samples via
Visual-Linguistic Inconsistency [50.129230147605185]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - Validating Multimedia Content Moderation Software via Semantic Fusion [16.322773343799575]
本稿では,マルチメディアコンテンツモデレーションソフトウェアの検証方法として,セマンティックフュージョンを紹介する。
5種類の商用コンテンツモデレーションソフトウェアと2種類の最先端モデルを3種類の有毒コンテンツに対してテストするためにDUOを使用している。
その結果,モード化ソフトウェアのテストでは,最大100%エラー検出率(EFR)が達成されることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:44:15Z) - Unifying and Personalizing Weakly-supervised Federated Medical Image
Segmentation via Adaptive Representation and Aggregation [1.121358474059223]
フェデレートラーニング(FL)は、データプライバシとセキュリティを損なうことなく、複数のサイトが協力して強力なディープモデルをトレーニングすることを可能にする。
微粒な監督を施した弱く監督されたセグメンテーションは、アノテーションコストを下げる大きな可能性を秘めているため、ますます注目されている。
医用画像セグメンテーションのための新しいFLフレームワークであるFedICRAを提案する。
論文 参考訳(メタデータ) (2023-04-12T06:32:08Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Toxicity Detection: Does Context Really Matter? [22.083682201142242]
私たちは、投稿の有害性に対する認識を増幅または緩和できる状況があることに気付きました。
意外なことに、文脈が毒性分類器の性能を実際に改善する証拠も見つからない。
これは、コンテキストにアノテートされたコメントのより大きなデータセットの必要性を示している。
論文 参考訳(メタデータ) (2020-06-01T15:03:48Z) - Deep Collaborative Embedding for information cascade prediction [58.90540495232209]
本稿では,情報カスケード予測のためのDeep Collaborative Embedding (DCE) と呼ばれる新しいモデルを提案する。
本稿では, 自動エンコーダを用いた協調埋め込みフレームワークを提案し, カスケード協調とノード協調によるノード埋め込みを学習する。
実世界のデータセットで行った大規模な実験の結果、我々のアプローチの有効性が検証された。
論文 参考訳(メタデータ) (2020-01-18T13:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。