論文の概要: WiDe-analysis: Enabling One-click Content Moderation Analysis on Wikipedia's Articles for Deletion
- arxiv url: http://arxiv.org/abs/2408.05655v1
- Date: Sat, 10 Aug 2024 23:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:01:49.045525
- Title: WiDe-analysis: Enabling One-click Content Moderation Analysis on Wikipedia's Articles for Deletion
- Title(参考訳): WiDe分析:ウィキペディアの削除記事のワンクリックコンテンツモデレーション分析
- Authors: Hsuvas Borkakoty, Luis Espinosa-Anke,
- Abstract要約: コンテンツモデレーションの議論にワンクリック分析を提供することを目的としたPythonパッケージであるウィキペディア削除議論とワイドアナライス(ウィキペディア削除分析)に関する一連の実験を紹介する。
データ、モデル、Pythonパッケージ、およびHuggingFaceスペースを含む、幅広い分析に関連するすべての資産をリリースし、ウィキペディアなどにおけるコンテンツモデレーションの自動化に関する研究を加速することを目的としています。
- 参考スコア(独自算出の注目度): 10.756673240445709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation in online platforms is crucial for ensuring activity therein adheres to existing policies, especially as these platforms grow. NLP research in this area has typically focused on automating some part of it given that it is not feasible to monitor all active discussions effectively. Past works have focused on revealing deletion patterns with like sentiment analysis, or on developing platform-specific models such as Wikipedia policy or stance detectors. Unsurprisingly, however, this valuable body of work is rather scattered, with little to no agreement with regards to e.g., the deletion discussions corpora used for training or the number of stance labels. Moreover, while efforts have been made to connect stance with rationales (e.g., to ground a deletion decision on the relevant policy), there is little explanability work beyond that. In this paper, we introduce a suite of experiments on Wikipedia deletion discussions and wide-analyis (Wikipedia Deletion Analysis), a Python package aimed at providing one click analysis to content moderation discussions. We release all assets associated with wide-analysis, including data, models and the Python package, and a HuggingFace space with the goal to accelerate research on automating content moderation in Wikipedia and beyond.
- Abstract(参考訳): オンラインプラットフォームにおけるコンテンツモデレーションは、特にこれらのプラットフォームが成長するにつれて、既存のポリシーに従うことを保証するために不可欠である。
この分野におけるNLP研究は、すべてのアクティブな議論を効果的に監視することは不可能であるため、その一部を自動化することに重点を置いている。
過去の研究は、感情分析のような削除パターンを明らかにすることや、ウィキペディアのポリシーやスタンス・ディテクターのようなプラットフォーム固有のモデルの開発に重点を置いてきた。
しかし、当然のことながら、この貴重な仕事の体系は散在しており、eg、トレーニングに使用される削除議論コーパス、スタンスラベルの数については、ほとんど、あるいは全く一致していない。
さらに、合理的な立場(例えば、関連する政策の削除決定を根拠に)を結び付ける努力も行われているが、それ以上に説明可能な作業はほとんどない。
本稿では,コンテンツモデレーションの議論にワンクリック解析を提供することを目的としたPythonパッケージであるウィキペディア削除議論とワイドアナライズ(ウィキペディア削除分析)について,一連の実験を紹介する。
データ、モデル、Pythonパッケージ、およびHuggingFaceスペースを含む、幅広い分析に関連するすべての資産をリリースし、ウィキペディアなどにおけるコンテンツモデレーションの自動化に関する研究を加速することを目的としています。
関連論文リスト
- LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - Orphan Articles: The Dark Matter of Wikipedia [13.290424502717734]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - How Inclusive Are Wikipedia's Hyperlinks in Articles Covering Polarizing
Topics? [8.035521056416242]
偏光トピックの相補的な側面を記述した記事間の相互接続トポロジの影響に着目した。
トピックの異なる側面へのユーザの露出を定量化するために,多様な情報への露出の新たな尺度を導入する。
ネットワークトポロジがユーザのトピックに関する多様な情報への露出を著しく制限するケースを特定し,ユーザが知識バブルに留まることを奨励する。
論文 参考訳(メタデータ) (2020-07-16T09:19:57Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。