論文の概要: Findings of the Shared Task on Offensive Span Identification from
Code-Mixed Tamil-English Comments
- arxiv url: http://arxiv.org/abs/2205.06118v1
- Date: Thu, 12 May 2022 14:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 18:16:08.216564
- Title: Findings of the Shared Task on Offensive Span Identification from
Code-Mixed Tamil-English Comments
- Title(参考訳): コードミキシングタミル英語コメントからの攻撃的スパン識別における共有課題の発見
- Authors: Manikandan Ravikiran, Bharathi Raja Chakravarthi, Anand Kumar
Madasamy, Sangeetha Sivanesan, Ratnavel Rajalakshmi, Sajeetha Thavareesan,
Rahul Ponnusamy, Shankar Mahadevan./
- Abstract要約: タミル語でコード入りのソーシャルコメントと攻撃的なコメントを提供する。
本稿では,提案システムから得られたデータセット,メソッド,結果について概説する。
- 参考スコア(独自算出の注目度): 2.8341970739919433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offensive content moderation is vital in social media platforms to support
healthy online discussions. However, their prevalence in codemixed Dravidian
languages is limited to classifying whole comments without identifying part of
it contributing to offensiveness. Such limitation is primarily due to the lack
of annotated data for offensive spans. Accordingly, in this shared task, we
provide Tamil-English code-mixed social comments with offensive spans. This
paper outlines the dataset so released, methods, and results of the submitted
systems
- Abstract(参考訳): ソーシャルメディアプラットフォームでは、攻撃的なコンテンツモデレーションが、健全なオンライン議論をサポートする上で不可欠である。
しかし、codemixed dravidian言語における彼らの流行は、攻撃性に寄与する部分を特定することなくコメント全体を分類することに限定されている。
このような制限は、主に攻撃的なスパンの注釈付きデータがないためである。
したがって、この共有タスクでは、タミル語でコード入りのソーシャルコメントを攻撃的なスパンで提供します。
本稿では,提案システムから得られたデータセット,方法,結果について概説する。
- 全文 参考訳へのリンク
関連論文リスト
- Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual
Social Media Discourse [1.465840097113565]
本稿では,異なるタイプの攻撃をマークした階層的,きめ細かなタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。
最初のデータセットは4つの言語で合計15,000の注釈付きコメントで構成されている。
ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。
論文 参考訳(メタデータ) (2021-11-19T19:03:22Z) - Pegasus@Dravidian-CodeMix-HASO C2021: Analyzing Social Media Content for
Detection of Offensive Text [0.0]
ソーシャルメディアプラットフォーム上の攻撃的なコメントや投稿は、個人、グループ、あるいは未成年者にも影響を及ぼす可能性がある。
HASOC - DravidianCodeMix FIRE 2021共有タスクの一部として、TamilとMarayalamという2つの人気のあるDravidian言語でコメントやポストを分類するために、Transformerベースのプロトタイプを2つ採用しています。
論文 参考訳(メタデータ) (2021-11-18T18:03:36Z) - Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss [1.7267596343997798]
攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
論文 参考訳(メタデータ) (2021-11-12T19:50:24Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - DravidianCodeMix: Sentiment Analysis and Offensive Language
Identification Dataset for Dravidian Languages in Code-Mixed Text [0.9738927161150494]
データセットは、タミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。
このデータはボランティアアノテータによって手動で注釈付けされ、クリッペンドルフのアルファ版では高いアノテータ間合意が結ばれている。
論文 参考訳(メタデータ) (2021-06-17T13:13:26Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Detecting Inappropriate Messages on Sensitive Topics that Could Harm a
Company's Reputation [64.22895450493729]
カメや釣りの穏やかな議論は、政治や性的マイノリティの議論よりも不適切な有毒な対話を後押しします。
我々は,不適切で有害なメッセージを生み出す可能性のある,センシティブなトピックのセットを定義し,データセットの収集とラベル付けの方法論を記述した。
論文 参考訳(メタデータ) (2021-03-09T10:50:30Z) - MUDES: Multilingual Detection of Offensive Spans [3.284443134471233]
MUDESはテキスト中の攻撃的スパンを検出するシステムである。
事前トレーニングされたモデル、開発者向けのPython API、ユーザフレンドリーなWebベースインターフェースを備えている。
論文 参考訳(メタデータ) (2021-02-18T23:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。