論文の概要: BAN-PL: a Novel Polish Dataset of Banned Harmful and Offensive Content
from Wykop.pl web service
- arxiv url: http://arxiv.org/abs/2308.10592v2
- Date: Wed, 23 Aug 2023 11:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:25:37.166451
- Title: BAN-PL: a Novel Polish Dataset of Banned Harmful and Offensive Content
from Wykop.pl web service
- Title(参考訳): ban-pl:wykop.pl webサービスから有害で不快なコンテンツを禁止するポーランドの新しいデータセット
- Authors: Inez Okulska, Kinga G{\l}\k{a}bi\'nska, Anna Ko{\l}os, Agnieszka
Karli\'nska, Emilia Wi\'snios, Adam Nowakowski, Pawe{\l} Ellerik, Andrzej
Pra{\l}at
- Abstract要約: 我々はポーランド語で最初のオープンデータセットであるBAN-PLを紹介した。
このデータセットには、人気の高いソーシャルネットワークサービス、Wykopの合計691,662のコンテンツが含まれている。
データ収集と事前処理の手順を包括的に記述し、データの言語的特異性を強調する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in automated detection of offensive language online, including hate
speech and cyberbullying, require improved access to publicly available
datasets comprising social media content. In this paper, we introduce BAN-PL,
the first open dataset in the Polish language that encompasses texts flagged as
harmful and subsequently removed by professional moderators. The dataset
encompasses a total of 691,662 pieces of content from a popular social
networking service, Wykop, often referred to as the "Polish Reddit", including
both posts and comments, and is evenly distributed into two distinct classes:
"harmful" and "neutral". We provide a comprehensive description of the data
collection and preprocessing procedures, as well as highlight the linguistic
specificity of the data. The BAN-PL dataset, along with advanced preprocessing
scripts for, i.a., unmasking profanities, will be publicly available.
- Abstract(参考訳): ヘイトスピーチやサイバーいじめを含むオンライン攻撃言語の自動検出の進歩は、ソーシャルメディアコンテンツを含む公開データセットへのアクセスを改善する必要がある。
本稿では,ポーランド語で最初のオープンデータセットであるBAN-PLについて紹介する。
このデータセットは、人気のあるソーシャルネットワーキングサービスwykopの合計691,662のコンテンツを含んでおり、投稿とコメントの両方を含む"polish reddit"と呼ばれることが多く、"harmful"と"neutral"の2つの異なるクラスに均等に分散している。
本稿では,データの収集および前処理手順の包括的記述と,データの言語的特異性を強調する。
BAN-PLデータセットは、先進的な前処理スクリプト、すなわち偽造の偽造のスクリプトとともに、一般公開される。
関連論文リスト
- OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - RuBia: A Russian Language Bias Detection Dataset [3.8501658629243076]
本稿では,RuBiaと呼ばれるロシア語に特化して設計されたバイアス検出データセットを提案する。
RuBiaデータセットは、性別、国籍、社会経済的地位、多様性の4つの領域に分けられる。
ルビアには、19の国に2000近いユニークな文が散在している。
論文 参考訳(メタデータ) (2024-03-26T10:01:01Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。
データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。
得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文 参考訳(メタデータ) (2022-10-21T06:50:12Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。