論文の概要: Predicting the Type and Target of Offensive Social Media Posts in
Marathi
- arxiv url: http://arxiv.org/abs/2211.12570v1
- Date: Tue, 22 Nov 2022 20:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:47:34.611424
- Title: Predicting the Type and Target of Offensive Social Media Posts in
Marathi
- Title(参考訳): マラウイにおける攻撃的ソーシャルメディア投稿のタイプとターゲット予測
- Authors: Marcos Zampieri, Tharindu Ranasinghe, Mrinal Chaudhari, Saurabh
Gaikwad, Prajwal Krishna, Mayuresh Nene, Shrunali Paygude
- Abstract要約: Marathi Offensive Language データセット v.2.0 や MOLD 2.0 を紹介します。
MOLD 2.0は、Marathi用にコンパイルされた最初の階層型攻撃型言語データセットである。
また、SOLIDで示される半教師付き手法に従って注釈付けされたより大きなデータセットであるSeMOLDについても紹介する。
- 参考スコア(独自算出の注目度): 12.454406287184064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of offensive language on social media is very common motivating
platforms to invest in strategies to make communities safer. This includes
developing robust machine learning systems capable of recognizing offensive
content online. Apart from a few notable exceptions, most research on automatic
offensive language identification has dealt with English and a few other high
resource languages such as French, German, and Spanish. In this paper we
address this gap by tackling offensive language identification in Marathi, a
low-resource Indo-Aryan language spoken in India. We introduce the Marathi
Offensive Language Dataset v.2.0 or MOLD 2.0 and present multiple experiments
on this dataset. MOLD 2.0 is a much larger version of MOLD with expanded
annotation to the levels B (type) and C (target) of the popular OLID taxonomy.
MOLD 2.0 is the first hierarchical offensive language dataset compiled for
Marathi, thus opening new avenues for research in low-resource Indo-Aryan
languages. Finally, we also introduce SeMOLD, a larger dataset annotated
following the semi-supervised methods presented in SOLID.
- Abstract(参考訳): ソーシャルメディアにおける攻撃的言語の存在は、コミュニティをより安全にするための戦略に投資する動機となるプラットフォームとして非常に一般的である。
これには、攻撃的なコンテンツをオンラインで認識できる堅牢な機械学習システムの開発が含まれる。
特筆すべき例外を除いて、攻撃言語の自動識別に関するほとんどの研究は、英語と、フランス語、ドイツ語、スペイン語などの他の高資源言語を扱っている。
本稿では,インドで話されているインド・アーリア語の低資源言語であるマラティ語において,攻撃的言語識別に取り組むことで,このギャップを解消する。
本稿では,marathi offensive language dataset v.2.0 または mold 2.0 を紹介し,このデータセットについて複数の実験を行う。
MOLD 2.0はMOLDのずっと大きなバージョンで、一般的なOLID分類のレベルB(型)とC(ターゲット)のアノテーションが拡張されている。
MOLD 2.0は、マラタイのためにコンパイルされた最初の階層的な攻撃的言語データセットであり、低リソースのインド・アーリア語の研究のための新たな道を開く。
最後に、SOLIDで示される半教師付き手法にしたがって注釈付けされたより大きなデータセットであるSeMOLDについても紹介する。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - MMT: A Multilingual and Multi-Topic Indian Social Media Dataset [1.0413233169366503]
ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
多くはコードミキシングと多言語形式で行われる。
我々はTwitterから収集した大規模多言語・マルチトピックデータセット(MMT)を紹介する。
論文 参考訳(メタデータ) (2023-04-02T21:39:00Z) - SOLD: Sinhala Offensive Language Dataset [11.63228876521012]
本稿はスリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラにおける攻撃的な言語識別に取り組む。
SOLDは手動でアノテートされたデータセットで、Twitterから1万の投稿がアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。
また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。
論文 参考訳(メタデータ) (2022-12-01T20:18:21Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文 参考訳(メタデータ) (2020-10-17T10:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。