論文の概要: The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions
- arxiv url: http://arxiv.org/abs/2601.11128v1
- Date: Fri, 16 Jan 2026 09:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.43437
- Title: The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions
- Title(参考訳): ビッグバン理論:オンラインコンテンツモデレーションアクションの事前および後介入データセット
- Authors: Aldo Cerulli, Lorenzo Cima, Benedetta Tessa, Serena Tardelli, Stefano Cresci,
- Abstract要約: オンラインプラットフォームは、ヘイトスピーチ、毒性、誤情報や偽情報の拡散といった有害な行為を抑制するために、モデレーションの介入に依存している。
しかし、そのような介入の効果と潜在的なバイアスに関する研究は、複数の制限に直面している。
本稿では,モデレーション介入の大規模データセットであるビッグバン理論(TBBT)を紹介する。
TBBTは、さまざまなタイプの25の介入、重大度、スコープをカバーしており、合計339万以上のユーザと39万近い投稿メッセージで構成されている。
- 参考スコア(独自算出の注目度): 0.25998985559865084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online platforms rely on moderation interventions to curb harmful behavior such hate speech, toxicity, and the spread of mis- and disinformation. Yet research on the effects and possible biases of such interventions faces multiple limitations. For example, existing works frequently focus on single or a few interventions, due to the absence of comprehensive datasets. As a result, researchers must typically collect the necessary data for each new study, which limits opportunities for systematic comparisons. To overcome these challenges, we introduce The Big Ban Theory (TBBT), a large dataset of moderation interventions. TBBT covers 25 interventions of varying type, severity, and scope, comprising in total over 339K users and nearly 39M posted messages. For each intervention, we provide standardized metadata and pseudonymized user activity collected three months before and after its enforcement, enabling consistent and comparable analyses of intervention effects. In addition, we provide a descriptive exploratory analysis of the dataset, along with several use cases of how it can support research on content moderation. With this dataset, we aim to support researchers studying the effects of moderation interventions and to promote more systematic, reproducible, and comparable research. TBBT is publicly available at: https://doi.org/10.5281/zenodo.18245670.
- Abstract(参考訳): オンラインプラットフォームは、ヘイトスピーチ、毒性、誤情報や偽情報の拡散といった有害な行為を抑制するために、モデレーションの介入に依存している。
しかし、そのような介入の効果と潜在的なバイアスに関する研究は、複数の制限に直面している。
例えば、既存の作業は、包括的なデータセットがないため、単一または少数の介入に重点を置いていることが多い。
その結果、研究者は通常、新しい研究に必要なデータを収集し、体系的な比較の機会を制限する必要がある。
これらの課題を克服するために、モデレーション介入の大規模なデータセットであるビッグバン理論(TBBT)を導入する。
TBBTは、さまざまなタイプの25の介入、重大度、スコープをカバーしており、合計339万以上のユーザと39万近い投稿メッセージで構成されている。
各介入に対して、標準化されたメタデータと、その実施前後の3ヶ月前に収集された擬似ユーザアクティビティを提供し、介入効果の一貫性と同等な分析を可能にする。
さらに、本データセットの記述的探索分析と、コンテンツモデレーションの研究を支援するためのいくつかのユースケースを提供する。
このデータセットでは、モデレーション介入の効果を研究する研究者を支援し、より体系的で再現性があり、同等の研究を促進することを目的としている。
TBBT は https://doi.org/10.5281/zenodo.18245670 で公開されている。
関連論文リスト
- Learning Joint Interventional Effects from Single-Variable Interventions in Additive Models [49.567092222782435]
観察データと単変量介入のみを用いて共同介入効果の学習方法を示す。
本稿では,それぞれの介入変数に対する因果効果を,包括的かつ未確立な貢献に分解する実用的推定器を提案する。
論文 参考訳(メタデータ) (2025-06-05T12:20:50Z) - Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - Deriving Causal Order from Single-Variable Interventions: Guarantees & Algorithm [14.980926991441345]
介入データを含むデータセットは,データ分布に関する現実的な仮定の下で効果的に抽出可能であることを示す。
本稿では,観察的および介入的設定における各変数の限界分布の比較に依拠する,介入忠実性の新たな変種を紹介する。
また、多数の単一変数の介入を含むデータセットから因果順序を推測するアルゴリズムであるIntersortを導入する。
論文 参考訳(メタデータ) (2024-05-28T16:07:17Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Zero-shot causal learning [64.9368337542558]
CaMLは因果メタラーニングフレームワークであり、各介入の効果をタスクとしてパーソナライズした予測を定式化する。
トレーニング時に存在しない新規介入のパーソナライズされた効果を予測することができることを示す。
論文 参考訳(メタデータ) (2023-01-28T20:14:11Z) - Continual Causal Effect Estimation: Challenges and Opportunities [11.343298687766579]
観測データにおける原因と効果のさらなる理解は多くの領域で重要である。
既存の手法は主にソース固有および静止観測データに焦点を当てている。
ビッグデータの時代,我々は観測データによる因果推論において新たな課題に直面している。
論文 参考訳(メタデータ) (2023-01-03T09:57:50Z) - Federated Causal Discovery From Interventions [35.53403074610876]
介入サンプルを含む分散データから因果構造を推定するフレームワークであるFedCDIを提案する。
フェデレートされた学習フレームワークに従って、FedCDIは、生サンプルではなく信条更新を交換することで、プライバシを改善する。
論文 参考訳(メタデータ) (2022-11-07T20:25:48Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Long-term Causal Inference Under Persistent Confounding via Data Combination [38.026740610259225]
実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。
長期の成果は長期間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。
論文 参考訳(メタデータ) (2022-02-15T07:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。