論文の概要: Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss
- arxiv url: http://arxiv.org/abs/2111.06916v1
- Date: Fri, 12 Nov 2021 19:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 05:57:46.706376
- Title: Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss
- Title(参考訳): code-mixing index based focal loss を用いた dravidian 言語における攻撃検出
- Authors: Debapriya Tula, Shreyas MS, Viswanatha Reddy, Pranjal Sahu, Sumanth
Doddapaneni, Prathyush Potluri, Rohan Sukumaran, Parth Patwa
- Abstract要約: 攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
- 参考スコア(独自算出の注目度): 1.7267596343997798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, we have seen exponential growth in online content
fueled by social media platforms. Data generation of this scale comes with the
caveat of insurmountable offensive content in it. The complexity of identifying
offensive content is exacerbated by the usage of multiple modalities (image,
language, etc.), code mixed language and more. Moreover, even if we carefully
sample and annotate offensive content, there will always exist significant
class imbalance in offensive vs non offensive content. In this paper, we
introduce a novel Code-Mixing Index (CMI) based focal loss which circumvents
two challenges (1) code mixing in languages (2) class imbalance problem for
Dravidian language offense detection. We also replace the conventional dot
product-based classifier with the cosine-based classifier which results in a
boost in performance. Further, we use multilingual models that help transfer
characteristics learnt across languages to work effectively with low resourced
languages. It is also important to note that our model handles instances of
mixed script (say usage of Latin and Dravidian - Tamil script) as well. Our
model can handle offensive language detection in a low-resource, class
imbalanced, multilingual and code mixed setting.
- Abstract(参考訳): 過去10年間で、ソーシャルメディアプラットフォームによるオンラインコンテンツの指数関数的な成長が見られた。
この規模のデータ生成には、不可解な攻撃的コンテンツの注意が伴う。
攻撃的コンテンツを特定する複雑さは、複数のモダリティ(画像、言語など)、コード混合言語の使用などによって悪化する。
さらに,攻撃コンテンツを注意深くサンプリングして注釈付けしても,攻撃コンテンツと非攻撃コンテンツの間には,常に重大な階級的不均衡が存在する。
本稿では,新しいコードミキシング・インデックス(CMI)に基づく焦点損失を導入し,(1)言語におけるコードミキシング,(2)ドラビダ語攻撃検出のためのクラス不均衡問題を回避した。
また,従来のドット製品に基づく分類器をコサインベースの分類器に置き換えることで性能が向上する。
さらに,低リソース言語を効果的に扱うために,言語間で学習した特性の伝達を支援する多言語モデルを用いる。
私たちのモデルは混合スクリプトのインスタンスも扱っています(例えば、ラテン語とドラビダ語 - タミル文字の使用)。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
関連論文リスト
- Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。
一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。
一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-03T04:26:49Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - Hate-Alert@DravidianLangTech-EACL2021: Ensembling strategies for
Transformer-based Offensive language Detection [5.139400587753555]
ソーシャルメディアは、しばしば異なる種類の攻撃的コンテンツの繁殖地として機能する。
我々は、異なるトランスモデルを徹底的に探索し、異なるモデルを統合する遺伝的アルゴリズムも提供する。
タミル語では第1位,カンナダ語では第2位,マラヤラム語のサブタスクでは第1位を確保した。
論文 参考訳(メタデータ) (2021-02-19T18:35:38Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文 参考訳(メタデータ) (2020-10-17T10:11:41Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。