Fugu-MT 論文翻訳(概要): Investigating the heterogenous effects of a massive content moderation intervention via Difference-in-Differences

論文の概要: Investigating the heterogenous effects of a massive content moderation intervention via Difference-in-Differences

arxiv url: http://arxiv.org/abs/2411.04037v3
Date: Mon, 02 Dec 2024 12:51:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.835482
Title: Investigating the heterogenous effects of a massive content moderation intervention via Difference-in-Differences
Title（参考訳）: 差分差分法による大規模コンテンツモデレーション介入の異種性効果の検討
Authors: Lorenzo Cima, Benedetta Tessa, Stefano Cresci, Amaury Trujillo, Marco Avvenuti,
Abstract要約: 我々は,The Great Banの効果について,因果推論手法を適用した。約34万のユーザーが共有した5300万のコメントを分析します。
参考スコア（独自算出の注目度）: 0.6918368994425961
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In today's online environments, users encounter harm and abuse on a daily basis. Therefore, content moderation is crucial to ensure their safety and well-being. However, the effectiveness of many moderation interventions is still uncertain. Here, we apply a causal inference approach to shed light on the effectiveness of The Great Ban, a massive social media deplatforming intervention. We analyze 53M comments shared by nearly 34K users, providing in-depth results on both the intended and unintended consequences of the ban. Our causal analyses reveal that 15.6% of the moderated users abandoned the platform while the remaining ones decreased their overall toxicity by 4.1%. Nonetheless, a subset of those users increased their toxicity by 70% after the intervention. However, the increases in toxicity did not lead to marked increases in activity or engagement, meaning that the most toxic users had an overall limited impact. Our findings bring to light new insights on the effectiveness of deplatforming moderation interventions. Furthermore, they also contribute to informing future content moderation strategies.
Abstract（参考訳）: 今日のオンライン環境では、ユーザーは日常的に害や虐待に遭遇する。そのため、コンテンツのモデレーションは、安全と幸福を確保するために不可欠である。しかし、多くのモデレーション介入の有効性はまだ不明である。ここでは、ソーシャルメディアの大規模な非プラットフォーム介入であるThe Great Banの有効性について、因果推論アプローチを適用した。約34Kユーザーが共有する5300万のコメントを分析し、禁止の意図された結果と意図しない結果の両方について詳細な結果を提供する。原因分析の結果,中等度の利用者の15.6%がプラットフォームを放棄し,残りの利用者は全体の毒性を4.1%減少させた。それでも、介入後、一部の利用者は毒性を70%上昇させた。しかし、毒性の増加は、活動やエンゲージメントの顕著な増加には至らなかった。以上の結果から,モデレーション介入の有効性に関する新たな知見が得られた。さらに、将来的なコンテンツモデレーション戦略の達成にも貢献している。

関連論文リスト

MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文参考訳（メタデータ） (2024-10-13T18:16:50Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Tracking Patterns in Toxicity and Antisocial Behavior Over User Lifetimes on Large Social Media Platforms [0.2630859234884723]
われわれはRedditとWikipediaの5億件近いコメントで14年間にわたって毒性を分析している。 Reddit上で最も有毒な行動は、最もアクティブなユーザーによって集計され、最も有毒な行動は、最もアクティブでないユーザーによって集計され、Wikipedia上で最も有毒な行動であることがわかった。
論文参考訳（メタデータ） (2024-07-12T15:45:02Z)
Beyond Trial-and-Error: Predicting User Abandonment After a Moderation Intervention [0.6918368994425961]
現在のコンテンツモデレーションは、リアクティブで試行錯誤的なアプローチに従っている。我々は、モデレーターが実装前に行動の影響を予測できるように、積極的に予測的なアプローチを導入する。 Reddit上でのオンラインコミュニティの大規模な禁止に対する16,540人のユーザーの反応を調査した。
論文参考訳（メタデータ） (2024-04-23T08:52:41Z)
The Great Ban: Efficacy and Unintended Consequences of a Massive Deplatforming Operation on Reddit [0.7422344184734279]
Reddit上で2000近いコミュニティに影響を与えた大規模なデプラットフォーム運用であるThe Great Banの有効性を評価した。 14ヶ月の間に17万のユーザーが投稿した16万のコメントを分析して、望ましい結果とそうでない結果の両方について、微妙な結果を提供する。
論文参考訳（メタデータ） (2024-01-20T15:21:37Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。創作作業のプロンプトは有害な反応を引き起こす確率が 2倍になる初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文参考訳（メタデータ） (2023-11-03T14:37:53Z)
Decoding the Silent Majority: Inducing Belief Augmented Social Graph with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文参考訳（メタデータ） (2023-10-20T06:17:02Z)
SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文参考訳（メタデータ） (2023-05-28T11:51:20Z)
Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文参考訳（メタデータ） (2023-05-18T05:58:27Z)
Sub-Standards and Mal-Practices: Misinformation's Role in Insular, Polarized, and Toxic Interactions on Reddit [5.161088104035108]
信頼できないニュースサイトの記事に対するコメントは、右利きのサブレディットに掲載されることが多い。サブレディットの毒性が高まるにつれて、ユーザーは既知の信頼できないウェブサイトからの投稿にコメントする傾向にある。
論文参考訳（メタデータ） (2023-01-27T01:32:22Z)
One of Many: Assessing User-level Effects of Moderation Interventions on r/The_Donald [1.1041211464412573]
Reddit上でr/The_Donaldを標的としたモデレーション介入によるユーザレベル効果を評価する。コミュニティレベルの影響が強い介入は、極端なユーザレベルの反応を引き起こすこともわかりました。この結果から,プラットフォームとコミュニティレベルの影響は,必ずしも個人や小規模なユーザグループの基本的な行動を表すものではないことが示唆された。
論文参考訳（メタデータ） (2022-09-19T07:46:18Z)
Make Reddit Great Again: Assessing Community Effects of Moderation Interventions on r/The_Donald [1.1041211464412573]
r/The_Donaldは、悪質で悪質なオンラインコミュニティとして繰り返し非難された。 2019年6月に隔離され、2020年2月に制限され、2020年6月に最終的に禁止された。この介入により,問題のあるユーザの活動が大幅に減少したことが判明した。しかし、この介入によって毒性が増加し、ユーザーはより分極的で事実の少ないニュースを共有するようになった。
論文参考訳（メタデータ） (2022-01-17T15:09:51Z)
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文参考訳（メタデータ） (2021-11-15T18:58:20Z)
News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。 Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文参考訳（メタデータ） (2021-06-07T19:26:32Z)
Do Platform Migrations Compromise Content Moderation? Evidence from r/The_Donald and r/Incels [20.41491269475746]
本研究は,コミュニティレベルの緩和措置にともなうオンラインコミュニティの進展状況について,大規模な観察研究の結果を報告する。以上の結果から, いずれの場合も, モデレーションは新プラットフォームにおけるポスト活動を大幅に減少させることが明らかとなった。それにもかかわらず、研究コミュニティの1つの利用者は、毒性や過激化に関連するシグナルの増加を示した。
論文参考訳（メタデータ） (2020-10-20T16:03:06Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)
Information Consumption and Social Response in a Segregated Environment: the Case of Gab [74.5095691235917]
この研究は、COVID-19トピックに関するGab内のインタラクションパターンの特徴を提供する。疑わしい、信頼できるコンテンツに対する社会的反応には、統計的に強い違いはない。本研究は,協調した不正確な行動の理解と情報操作の早期警戒に関する知見を提供する。
論文参考訳（メタデータ） (2020-06-03T11:34:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。