論文の概要: The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual
Social Media Discourse
- arxiv url: http://arxiv.org/abs/2111.10390v1
- Date: Fri, 19 Nov 2021 19:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 08:37:30.329091
- Title: The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual
Social Media Discourse
- Title(参考訳): ComMA Dataset V0.2:多言語ソーシャルメディア談話におけるアグレッションとバイアスの注釈
- Authors: Ritesh Kumar and Enakshi Nandi and Laishram Niranjana Devi and Shyam
Ratan and Siddharth Singh and Akash Bhagat and Yogesh Dawer
- Abstract要約: 本稿では,異なるタイプの攻撃をマークした階層的,きめ細かなタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。
最初のデータセットは4つの言語で合計15,000の注釈付きコメントで構成されている。
ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。
- 参考スコア(独自算出の注目度): 1.465840097113565
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we discuss the development of a multilingual dataset annotated
with a hierarchical, fine-grained tagset marking different types of aggression
and the "context" in which they occur. The context, here, is defined by the
conversational thread in which a specific comment occurs and also the "type" of
discursive role that the comment is performing with respect to the previous
comment. The initial dataset, being discussed here (and made available as part
of the ComMA@ICON shared task), consists of a total 15,000 annotated comments
in four languages - Meitei, Bangla, Hindi, and Indian English - collected from
various social media platforms such as YouTube, Facebook, Twitter and Telegram.
As is usual on social media websites, a large number of these comments are
multilingual, mostly code-mixed with English. The paper gives a detailed
description of the tagset being used for annotation and also the process of
developing a multi-label, fine-grained tagset that can be used for marking
comments with aggression and bias of various kinds including gender bias,
religious intolerance (called communal bias in the tagset), class/caste bias
and ethnic/racial bias. We also define and discuss the tags that have been used
for marking different the discursive role being performed through the comments,
such as attack, defend, etc. We also present a statistical analysis of the
dataset as well as results of our baseline experiments with developing an
automatic aggression identification system using the dataset developed.
- Abstract(参考訳): 本稿では,異なるタイプの攻撃をマークした階層的,きめ細かいタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。
ここでのコンテキストは、特定のコメントが発生する会話スレッドと、前回のコメントに関してコメントが実行している不正確な役割の"タイプ"によって定義されます。
最初のデータセットはここで議論され(comma@iconの共有タスクの一部として利用可能)、youtube、facebook、twitter、telegramなどのソーシャルメディアプラットフォームから収集された、meitei、bangla、ヒンディー語、インド英語の4つの言語で合計15,000の注釈付きコメントで構成されている。
ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。
本稿では,アノテーションに使用されているタグセットの詳細な説明と,性別バイアス,宗教的不寛容(タグセットにおけるコミュニカルバイアスと呼ばれる),クラス/キャストバイアス,民族/人種バイアスなど,さまざまな種類の攻撃的・偏見を伴うコメントのマーク付けに使用できるマルチラベルの細粒度タグセットの開発プロセスについて述べる。
また,アタックやディフェンスなど,コメントを通じて実行されている不正な役割をマーキングするために使用されたタグを定義し,議論する。
また,提案したデータセットを用いた自動攻撃識別システムを開発するためのベースライン実験の結果とともに,データセットの統計的解析を行った。
関連論文リスト
- cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文 参考訳(メタデータ) (2023-08-20T21:30:34Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - SentiGOLD: A Large Bangla Gold Standard Multi-Domain Sentiment Analysis
Dataset and its Evaluation [0.9894420655516565]
センティゴルドはバングラデシュ政府とバングラデシュ言語委員会によって合意された、確立された言語慣習に準拠している。
このデータセットには、オンラインビデオコメント、ソーシャルメディア投稿、ブログ、ニュース、その他のソースからのデータが含まれている。
上位モデルは5つのクラスで0.62(イントラデータセット)のマクロf1スコアを獲得し、ベンチマークを設定し、3つのクラスで0.61(SentNoBのクロスデータセット)を得る。
論文 参考訳(メタデータ) (2023-06-09T12:07:10Z) - Micro-video Tagging via Jointly Modeling Social Influence and Tag
Relation [56.23157334014773]
85.7%のマイクロビデオにはアノテーションがない。
既存の手法は、主にビデオコンテンツの分析、ユーザの社会的影響やタグ関係を無視することに焦点を当てている。
構築したヘテロジニアスネットワークにおけるリンク予測問題として,マイクロビデオタギングを定式化する。
論文 参考訳(メタデータ) (2023-03-15T02:13:34Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - DravidianCodeMix: Sentiment Analysis and Offensive Language
Identification Dataset for Dravidian Languages in Code-Mixed Text [0.9738927161150494]
データセットは、タミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。
このデータはボランティアアノテータによって手動で注釈付けされ、クリッペンドルフのアルファ版では高いアノテータ間合意が結ばれている。
論文 参考訳(メタデータ) (2021-06-17T13:13:26Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Developing a Multilingual Annotated Corpus of Misogyny and Aggression [1.0187588674939276]
インド英語,ヒンディー語,インド・バングラ語における多言語アノテート・コーパスの展開について論じる。
データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。
論文 参考訳(メタデータ) (2020-03-16T20:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。