論文の概要: Fair multilingual vandalism detection system for Wikipedia
- arxiv url: http://arxiv.org/abs/2306.01650v1
- Date: Fri, 2 Jun 2023 16:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:23:25.650504
- Title: Fair multilingual vandalism detection system for Wikipedia
- Title(参考訳): wikipediaにおける多言語バンダリズム検出システム
- Authors: Mykola Trokhymovych, Muniza Aslam, Ai-Jou Chou, Ricardo Baeza-Yates,
and Diego Saez-Trumper
- Abstract要約: 本稿では,ウィキペディアコミュニティを支援するための新しいシステムの設計について述べる。
これを実現するため、47言語からなる膨大なデータセットを収集し、高度なフィルタリングと特徴工学技術を適用した。
調査の結果、対象言語が大幅に増加し、ウィキペディアのパトロールがより広い範囲のコミュニティでより効率的になった。
- 参考スコア(独自算出の注目度): 1.7790805015577966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel design of the system aimed at supporting the
Wikipedia community in addressing vandalism on the platform. To achieve this,
we collected a massive dataset of 47 languages, and applied advanced filtering
and feature engineering techniques, including multilingual masked language
modeling to build the training dataset from human-generated data. The
performance of the system was evaluated through comparison with the one used in
production in Wikipedia, known as ORES. Our research results in a significant
increase in the number of languages covered, making Wikipedia patrolling more
efficient to a wider range of communities. Furthermore, our model outperforms
ORES, ensuring that the results provided are not only more accurate but also
less biased against certain groups of contributors.
- Abstract(参考訳): 本稿では,wikipediaコミュニティがプラットフォーム上で破壊行為に対処することを支援するシステムについて,新しい設計手法を提案する。
これを実現するために,47言語からなる膨大なデータセットを収集し,多言語マスキング言語モデリングを含む高度なフィルタリングと特徴工学手法を適用し,人間の生成したデータからトレーニングデータセットを構築する。
システムの性能は、ORESとして知られるウィキペディアのプロダクションで使われているものと比較することで評価された。
調査の結果、対象言語が大幅に増加し、ウィキペディアのパトロールがより広い範囲のコミュニティでより効率的になった。
さらに、我々のモデルはORESよりも優れており、提供された結果がより正確であるだけでなく、コントリビュータの特定のグループに対するバイアスが少ないことを保証します。
関連論文リスト
- End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Considerations for Multilingual Wikipedia Research [1.5736899098702972]
ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T20:34:15Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。