論文の概要: Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions
- arxiv url: http://arxiv.org/abs/2503.10294v1
- Date: Thu, 13 Mar 2025 12:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:45.184319
- Title: Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions
- Title(参考訳): Wikipediaは辞書ではない、削除!Wiki削除に関する議論を分析するプロキシとしてのテキスト分類
- Authors: Hsuvas Borkakoty, Luis Espinosa-Anke,
- Abstract要約: いくつかのウィキで削除をマークした記事を中心に,議論のデータベースを構築した。
次に、異なるタスクで様々なLMを評価するために使用します。
結果から,削除につながる議論は予測し易いことが明らかとなった。
- 参考スコア(独自算出の注目度): 10.756673240445709
- License:
- Abstract: Automated content moderation for collaborative knowledge hubs like Wikipedia or Wikidata is an important yet challenging task due to multiple factors. In this paper, we construct a database of discussions happening around articles marked for deletion in several Wikis and in three languages, which we then use to evaluate a range of LMs on different tasks (from predicting the outcome of the discussion to identifying the implicit policy an individual comment might be pointing to). Our results reveal, among others, that discussions leading to deletion are easier to predict, and that, surprisingly, self-produced tags (keep, delete or redirect) don't always help guiding the classifiers, presumably because of users' hesitation or deliberation within comments.
- Abstract(参考訳): ウィキペディアやウィキデータのようなコラボレーティブな知識ハブのためのコンテンツモデレーションの自動化は重要な課題だが、複数の要因があるため難しい課題である。
本稿では,複数のウィキや3つの言語で削除をマークした記事を中心に発生する議論のデータベースを構築し,異なるタスク(議論の結果の予測から,個々のコメントが指しているであろう暗黙のポリシーの特定まで)におけるLMの評価に使用する。
私たちの結果は、削除につながる議論は予測しやすく、驚くほど、自己生成されたタグ(keep、delete、redirect)が、おそらくコメント内のユーザの動揺や熟考のために、常に分類器を導くのに役立ちません。
関連論文リスト
- WiDe-analysis: Enabling One-click Content Moderation Analysis on Wikipedia's Articles for Deletion [10.756673240445709]
コンテンツモデレーションの議論にワンクリック分析を提供することを目的としたPythonパッケージであるウィキペディア削除議論とワイドアナライス(ウィキペディア削除分析)に関する一連の実験を紹介する。
データ、モデル、Pythonパッケージ、およびHuggingFaceスペースを含む、幅広い分析に関連するすべての資産をリリースし、ウィキペディアなどにおけるコンテンツモデレーションの自動化に関する研究を加速することを目的としています。
論文 参考訳(メタデータ) (2024-08-10T23:43:11Z) - Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文 参考訳(メタデータ) (2021-02-26T22:17:50Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。