論文の概要: Decoding the Rule Book: Extracting Hidden Moderation Criteria from Reddit Communities
- arxiv url: http://arxiv.org/abs/2509.02926v1
- Date: Wed, 03 Sep 2025 01:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.380683
- Title: Decoding the Rule Book: Extracting Hidden Moderation Criteria from Reddit Communities
- Title(参考訳): ルールブックをデコードする:Redditコミュニティから隠されたモデレーション基準を抽出する
- Authors: Youngwoo Kim, Himanshu Beniwal, Steven L. Johnson, Thomas Hartvigsen,
- Abstract要約: 我々は、コンテンツ削除に関連する語彙表現のスコアテーブルとして、モデレーション基準を表現している。
これらの抽出された語彙パターンは,ニューラルネットワークモデルの性能を効果的に再現することを示した。
結果の基準行列は、共有ノルムが実際にどのように強制されるかに大きなバリエーションを示す。
- 参考スコア(独自算出の注目度): 11.963784232069907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective content moderation systems require explicit classification criteria, yet online communities like subreddits often operate with diverse, implicit standards. This work introduces a novel approach to identify and extract these implicit criteria from historical moderation data using an interpretable architecture. We represent moderation criteria as score tables of lexical expressions associated with content removal, enabling systematic comparison across different communities. Our experiments demonstrate that these extracted lexical patterns effectively replicate the performance of neural moderation models while providing transparent insights into decision-making processes. The resulting criteria matrix reveals significant variations in how seemingly shared norms are actually enforced, uncovering previously undocumented moderation patterns including community-specific tolerances for language, features for topical restrictions, and underlying subcategories of the toxic speech classification.
- Abstract(参考訳): 効果的なコンテンツモデレーションシステムは明確な分類基準を必要とするが、サブレディットのようなオンラインコミュニティは多様で暗黙的な基準で運営されることが多い。
この研究は、解釈可能なアーキテクチャを用いて、歴史的モデレーションデータからこれらの暗黙の基準を特定し、抽出する新しいアプローチを導入する。
我々は,コンテンツ削除に関連する語彙表現のスコアテーブルとしてモデレーション基準を表現し,異なるコミュニティ間で体系的な比較を可能にする。
本実験は,これらの抽出した語彙パターンが,意思決定プロセスに透過的な洞察を与えながら,ニューラルネットワークのモデレーションモデルの性能を効果的に再現することを示した。
結果として得られた基準行列は、言語に対するコミュニティ固有の寛容性、トピック制限の特徴、有害な音声分類の根底にあるサブカテゴリを含む、以前は文書化されていなかったモデレーションパターンを明らかにする。
関連論文リスト
- Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - A Collaborative Content Moderation Framework for Toxicity Detection based on Conformalized Estimates of Annotation Disagreement [7.031062446301277]
アノテーションの不一致を捉えることの重要性を強調する新しいコンテンツモデレーションフレームワークを導入する。
我々は、コメントアノテーションの曖昧さと、毒性と不一致を予測するモデル固有の不確実性の両方を考慮するために、不確実性推定技術、特にコンフォーマル予測を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:08:57Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - ToVo: Toxicity Taxonomy via Voting [25.22398575368979]
投票と連鎖プロセスを統合したデータセット作成機構を提案する。
本手法は,各サンプルの分類基準を多種多様に設定する。
提案したメカニズムによって生成されたデータセットを使用してモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-21T02:35:30Z) - Rule By Example: Harnessing Logical Rules for Explainable Hate Speech
Detection [13.772240348963303]
Rule By Example(RBE)は、テキストコンテンツモデレーションのタスクに対する論理規則から学習するための、新規なコントラスト学習手法である。
RBEはルール基底の予測を提供することができ、典型的なディープラーニングベースのアプローチと比較して説明可能でカスタマイズ可能な予測を可能にする。
論文 参考訳(メタデータ) (2023-07-24T16:55:37Z) - Mitigating Catastrophic Forgetting in Task-Incremental Continual
Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。
実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文 参考訳(メタデータ) (2023-05-20T19:22:40Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Compressive Summarization with Plausibility and Salience Modeling [54.37665950633147]
本稿では,候補空間に対する厳密な構文的制約を緩和し,その代わりに圧縮決定を2つのデータ駆動基準,すなわち妥当性とサリエンスに委ねることを提案する。
提案手法は,ベンチマーク要約データセット上で強いドメイン内結果を得るとともに,人間による評価により,文法的および事実的削除に対して,可算性モデルが一般的に選択されることを示す。
論文 参考訳(メタデータ) (2020-10-15T17:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。