Fugu-MT 論文翻訳(概要): 4chan & 8chan embeddings

論文の概要: 4chan & 8chan embeddings

arxiv url: http://arxiv.org/abs/2005.06946v1
Date: Thu, 2 Apr 2020 10:17:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 12:38:55.147599
Title: 4chan & 8chan embeddings
Title（参考訳）: 4chan と 8chan の埋め込み
Authors: Pierre Vou\'e, Tom De Smedt, Guy De Pauw
Abstract要約: 4chanと8chanで公開されている/pol/メッセージボードから3000万以上のメッセージを収集し、それらを有害な言語使用のモデルにコンパイルしました。訓練された単語埋め込みは無償でリリースされ、有害な談話のさらなる研究やヘイトスピーチ検出システムの向上に有用である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We have collected over 30M messages from the publicly available /pol/ message boards on 4chan and 8chan, and compiled them into a model of toxic language use. The trained word embeddings (0.4GB) are released for free and may be useful for further study on toxic discourse or to boost hate speech detection systems: https://textgain.com/8chan.
Abstract（参考訳）: 4chanと8chanで公開されている/pol/メッセージボードから、3000万以上のメッセージを収集し、有毒な言語使用のモデルにコンパイルしました。トレーニングされたワード埋め込み (0.4GB) は無償でリリースされており、有害な談話のさらなる研究やヘイトスピーチ検出システムの強化に役立つ可能性がある。

関連論文リスト

All You Need is "Leet": Evading Hate-speech Detection AI [0.6906005491572401]
本稿では,オンラインプラットフォーム上でのヘイトスピーチからユーザを守るためのブラックボックス手法を設計する。我々の最高の摂動攻撃は、86.8%のヘイトフルテキストに対するヘイトスピーチ検出を回避できる。
論文参考訳（メタデータ） (2025-05-22T05:55:26Z)
Measuring Online Hate on 4chan using Pre-trained Deep Learning Models [4.970364068620607]
本研究は,4chanの政治的不正確なボード(/pol/)上でのオンライン憎悪の頻度を分析し,測定することに焦点を当てる。我々は、最先端自然言語処理(NLP)モデル、特にRoBERTaやDetoxifyのようなトランスフォーマーベースのモデルを使用します。結果は、このデータセットの11.20%が、異なるカテゴリのヘイトを含むと認識されていることを示している。
論文参考訳（メタデータ） (2025-03-30T22:47:11Z)
Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文参考訳（メタデータ） (2023-05-18T05:58:27Z)
Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文参考訳（メタデータ） (2022-03-04T15:59:06Z)
Understanding and Detecting Hateful Content using Contrastive Learning [0.9391375268580806]
この研究は、ウェブ上のヘイトフルコンテンツを検出し、理解するための研究に貢献する。我々は、反ユダヤ主義的・イスラム主義的な憎悪的な文章句の集合を識別する方法論を考案した。次に、OpenAIのCLIPを使用して、アンチセミティック/Islamophicのテキストフレーズと非常によく似た画像を識別する。
論文参考訳（メタデータ） (2022-01-21T18:22:29Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Comparing the Language of QAnon-related content on Parler, Gab, and Twitter [68.8204255655161]
保守派の間で人気の「言論の自由」プラットフォームであるParlerは、2021年1月に、憎悪やQAnonなどの陰謀に関するコンテンツのモデレーションの欠如により、オフラインになった。われわれは投稿をParlerの#QAnonというハッシュタグと比較する。 Gabはヘイト条件の#QAnon投稿が最も多く、ParlerとTwitterも同様である。これら3つのプラットフォームにおいて、女性政治家、民主党員、ドナルド・トランプに言及する投稿は、男性政治家、共和党員、あるいは共和党員に言及する投稿よりも、より反社会的な言葉を持っている。
論文参考訳（メタデータ） (2021-11-22T11:19:15Z)
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文参考訳（メタデータ） (2021-11-15T18:58:20Z)
"Is it a Qoincidence?": An Exploratory Study of QAnon on Voat [12.14455026524814]
QAnon陰謀説は2017年に4chanに登場した。この投稿で言及されている最も人気のある名前のエンティティと、議論の最も顕著なトピックについて研究する。我々のグラフの視覚化は、QAnon関連のものの一部は、Pizzagateの陰謀論と密接に関連していることを示している。
論文参考訳（メタデータ） (2020-09-10T14:25:28Z)
Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文参考訳（メタデータ） (2020-05-25T21:58:09Z)
Measuring and Characterizing Hate Speech on News Websites [13.289076063197466]
われわれは19ヶ月の間に412万件のニュース記事に投稿された1億125万件のコメントを分析した。シャーロッツビルでの「統一右派」集会のような現実世界の分裂イベントに関するヘイトフルなコメント活動の統計学的に顕著な増加が見られる。ヘイトフルコメントを惹きつける記事は、ヘイトフルコメントを惹きつけない記事に比べ、言語的特徴が異なることがわかった。
論文参考訳（メタデータ） (2020-05-16T09:59:01Z)
Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board [12.14455026524814]
本稿では,3.3M以上のスレッドと134.5Mのポストを持つデータセットを,画像掲示板フォーラム4chanから提示する。私たちの知る限りでは、これは公開可能な4chanデータセットとしては最大である。このデータセットがソーシャルメディアのクロスプラットフォーム研究に使われ、自然言語処理などの他の研究にも役立つことを願っている。
論文参考訳（メタデータ） (2020-01-21T12:52:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。