論文の概要: Offensive Language Identification in Transliterated and Code-Mixed
Bangla
- arxiv url: http://arxiv.org/abs/2311.15023v1
- Date: Sat, 25 Nov 2023 13:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:18:29.141296
- Title: Offensive Language Identification in Transliterated and Code-Mixed
Bangla
- Title(参考訳): 翻訳・コードミキシングバングラにおける攻撃的言語識別
- Authors: Md Nishat Raihan, Umma Hani Tanmoy, Anika Binte Islam, Kai North,
Tharindu Ranasinghe, Antonios Anastasopoulos, Marcos Zampieri
- Abstract要約: 本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
- 参考スコア(独自算出の注目度): 29.30985521838655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Identifying offensive content in social media is vital for creating safe
online communities. Several recent studies have addressed this problem by
creating datasets for various languages. In this paper, we explore offensive
language identification in texts with transliterations and code-mixing,
linguistic phenomena common in multilingual societies, and a known challenge
for NLP systems. We introduce TB-OLID, a transliterated Bangla offensive
language dataset containing 5,000 manually annotated comments. We train and
fine-tune machine learning models on TB-OLID, and we evaluate their results on
this dataset. Our results show that English pre-trained transformer-based
models, such as fBERT and HateBERT achieve the best performance on this
dataset.
- Abstract(参考訳): ソーシャルメディアにおける攻撃的コンテンツの特定は、安全なオンラインコミュニティを作るのに不可欠である。
いくつかの最近の研究は、様々な言語のためのデータセットを作成することでこの問題に対処している。
本稿では,多言語社会に共通する言語現象,およびNLPシステムにおける既知の課題について検討する。
tb-olidは,手作業で5000の注釈付コメントを含むバングラ攻撃言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
この結果から,fBERTやHateBERTといった英語の事前学習型トランスフォーマーベースモデルが,このデータセット上で最高の性能を発揮することがわかった。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - SOLD: Sinhala Offensive Language Dataset [11.63228876521012]
本稿はスリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラにおける攻撃的な言語識別に取り組む。
SOLDは手動でアノテートされたデータセットで、Twitterから1万の投稿がアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。
また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。
論文 参考訳(メタデータ) (2022-12-01T20:18:21Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts [2.0305676256390934]
本研究では,複数の深層学習モデルを用いた広範囲な実験を行い,YouTube上の攻撃的コンテンツを検出するための伝達学習モデルを提案する。
そこで本研究では,多言語トランスフォーマーネットワークの微調整とエンハンスブルによるより良い結果を得るために,選択的翻訳と音読化技術の新しいフレキシブルなアプローチを提案する。
提案したULMFiTとmBERTBiLSTMは良好な結果を得た。
論文 参考訳(メタデータ) (2021-08-24T20:23:30Z) - Language Identification of Hindi-English tweets using code-mixed BERT [0.0]
この研究は、ヒンディー語-英語-ウルドゥー語混成テキストのデータ収集を言語事前学習に利用し、ヒンディー語-英語混成テキストはその後の単語レベルの言語分類に利用している。
その結果、コードミックスデータ上で事前学習された表現は、モノリンガルデータによるより良い結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-07-02T17:51:36Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。