論文の概要: The Constant in HATE: Analyzing Toxicity in Reddit across Topics and Languages
- arxiv url: http://arxiv.org/abs/2404.18726v1
- Date: Mon, 29 Apr 2024 14:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:28:15.851118
- Title: The Constant in HATE: Analyzing Toxicity in Reddit across Topics and Languages
- Title(参考訳): HATEの定数 - トピックと言語を越えたRedditの毒性の分析
- Authors: Wondimagegnhue Tsegaye Tufa, Ilia Markov, Piek Vossen,
- Abstract要約: トクシック言語は、ソーシャルメディアプラットフォームにおいて現在も進行中の課題である。
本稿では,Redditの会話における毒性の多言語的・多言語的分析について述べる。
- 参考スコア(独自算出の注目度): 2.5398014196797605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic language remains an ongoing challenge on social media platforms, presenting significant issues for users and communities. This paper provides a cross-topic and cross-lingual analysis of toxicity in Reddit conversations. We collect 1.5 million comment threads from 481 communities in six languages: English, German, Spanish, Turkish,Arabic, and Dutch, covering 80 topics such as Culture, Politics, and News. We thoroughly analyze how toxicity spikes within different communities in relation to specific topics. We observe consistent patterns of increased toxicity across languages for certain topics, while also noting significant variations within specific language communities.
- Abstract(参考訳): Toxic言語は依然としてソーシャルメディアプラットフォーム上で進行中の課題であり、ユーザやコミュニティに重大な問題を提示している。
本稿では,Redditの会話における毒性の多言語的・多言語的分析について述べる。
私たちは、英語、ドイツ語、スペイン語、トルコ語、アラビア語、オランダ語という6つの言語で481のコミュニティから150万のコメントスレッドを収集し、文化、政治、ニュースといった80のトピックをカバーしています。
我々は、特定のトピックに関して、異なるコミュニティ内で毒性がどのようにスパイクするかを徹底的に分析する。
特定のトピックに対して言語間で毒性が増大する一貫したパターンを観察すると同時に、特定の言語コミュニティ内でも顕著な差異が指摘される。
関連論文リスト
- Grounding Toxicity in Real-World Events across Languages [2.5398014196797605]
選挙や紛争のような現実世界の出来事は、オンラインで有害な行動を起こし、エスカレートする。
Redditのデータは、6つの言語で3万3千件の投稿から45万件のコメントを集めた。
有害性,否定的感情,感情表現の有意な変動を様々な事象や言語コミュニティで観察する。
論文 参考訳(メタデータ) (2024-05-22T15:38:53Z) - Analyzing Toxicity in Deep Conversations: A Reddit Case Study [0.0]
この研究は、公開会話設定における毒性に関するユーザがどのように振る舞うかを理解するために、ツリーベースのアプローチを採用する。
Redditの8つのコミュニティから上位100件の投稿とコメントのセクションを収集し、100万件以上の回答を得た。
有毒なコメントは、その後の有毒なコメントがオンライン会話で生み出される可能性を高める。
論文 参考訳(メタデータ) (2024-04-11T16:10:44Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Twits, Toxic Tweets, and Tribal Tendencies: Trends in Politically
Polarized Posts on Twitter [4.357949911556638]
政治イデオロギーが個人のユーザレベルとTwitterのトピックレベルの両方で毒性に寄与する役割について検討する。
55,415人のTwitterユーザーから1億8700万のツイートを集めた結果、政治イデオロギーやアカウント年齢などのアカウントレベルの特徴が、各ユーザーが有害コンテンツを投稿する頻度を予測する。
論文 参考訳(メタデータ) (2023-07-19T17:24:47Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Toxic Language Detection in Social Media for Brazilian Portuguese: New
Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。
より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文 参考訳(メタデータ) (2020-10-09T13:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。