論文の概要: Findings of the Shared Task on Offensive Span Identification from
Code-Mixed Tamil-English Comments
- arxiv url: http://arxiv.org/abs/2205.06118v1
- Date: Thu, 12 May 2022 14:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 18:16:08.216564
- Title: Findings of the Shared Task on Offensive Span Identification from
Code-Mixed Tamil-English Comments
- Title(参考訳): コードミキシングタミル英語コメントからの攻撃的スパン識別における共有課題の発見
- Authors: Manikandan Ravikiran, Bharathi Raja Chakravarthi, Anand Kumar
Madasamy, Sangeetha Sivanesan, Ratnavel Rajalakshmi, Sajeetha Thavareesan,
Rahul Ponnusamy, Shankar Mahadevan./
- Abstract要約: タミル語でコード入りのソーシャルコメントと攻撃的なコメントを提供する。
本稿では,提案システムから得られたデータセット,メソッド,結果について概説する。
- 参考スコア(独自算出の注目度): 2.8341970739919433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offensive content moderation is vital in social media platforms to support
healthy online discussions. However, their prevalence in codemixed Dravidian
languages is limited to classifying whole comments without identifying part of
it contributing to offensiveness. Such limitation is primarily due to the lack
of annotated data for offensive spans. Accordingly, in this shared task, we
provide Tamil-English code-mixed social comments with offensive spans. This
paper outlines the dataset so released, methods, and results of the submitted
systems
- Abstract(参考訳): ソーシャルメディアプラットフォームでは、攻撃的なコンテンツモデレーションが、健全なオンライン議論をサポートする上で不可欠である。
しかし、codemixed dravidian言語における彼らの流行は、攻撃性に寄与する部分を特定することなくコメント全体を分類することに限定されている。
このような制限は、主に攻撃的なスパンの注釈付きデータがないためである。
したがって、この共有タスクでは、タミル語でコード入りのソーシャルコメントを攻撃的なスパンで提供します。
本稿では,提案システムから得られたデータセット,方法,結果について概説する。
関連論文リスト
- YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification [0.0]
コード混合テキストにおける皮肉と感情検出のための新しい金標準コーパスを提案する。
このタスクの主な目的は、タミル・イングリッシュとマラヤラム・イングリッシュのコメントとソーシャルメディアプラットフォームから収集された投稿のコード混成データセットの中で、皮肉と感情の極性を特定することである。
我々はGPT-3.5 Turboのような最先端の大規模言語モデルを実験し、コメントを皮肉的または非皮肉的なカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-06T17:58:01Z) - OffensiveLang: A Community Based Implicit Offensive Language Dataset [5.813922783967869]
ヘイトスピーチや攻撃的な言語は、明示的な形と暗黙的な形の両方に存在する。
OffensiveLangはコミュニティベースの暗黙的な攻撃的な言語データセットである。
本稿では、暗黙の攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-04T20:34:58Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss [1.7267596343997798]
攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
論文 参考訳(メタデータ) (2021-11-12T19:50:24Z) - CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文 参考訳(メタデータ) (2020-10-17T10:11:41Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。