Fugu-MT 論文翻訳(概要): Offense Detection in Dravidian Languages using Code-Mixing Index based Focal Loss

論文の概要: Offense Detection in Dravidian Languages using Code-Mixing Index based Focal Loss

arxiv url: http://arxiv.org/abs/2111.06916v1
Date: Fri, 12 Nov 2021 19:50:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 05:57:46.706376
Title: Offense Detection in Dravidian Languages using Code-Mixing Index based Focal Loss
Title（参考訳）: code-mixing index based focal loss を用いた dravidian 言語における攻撃検出
Authors: Debapriya Tula, Shreyas MS, Viswanatha Reddy, Pranjal Sahu, Sumanth Doddapaneni, Prathyush Potluri, Rohan Sukumaran, Parth Patwa
Abstract要約: 攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
参考スコア（独自算出の注目度）: 1.7267596343997798
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over the past decade, we have seen exponential growth in online content fueled by social media platforms. Data generation of this scale comes with the caveat of insurmountable offensive content in it. The complexity of identifying offensive content is exacerbated by the usage of multiple modalities (image, language, etc.), code mixed language and more. Moreover, even if we carefully sample and annotate offensive content, there will always exist significant class imbalance in offensive vs non offensive content. In this paper, we introduce a novel Code-Mixing Index (CMI) based focal loss which circumvents two challenges (1) code mixing in languages (2) class imbalance problem for Dravidian language offense detection. We also replace the conventional dot product-based classifier with the cosine-based classifier which results in a boost in performance. Further, we use multilingual models that help transfer characteristics learnt across languages to work effectively with low resourced languages. It is also important to note that our model handles instances of mixed script (say usage of Latin and Dravidian - Tamil script) as well. Our model can handle offensive language detection in a low-resource, class imbalanced, multilingual and code mixed setting.
Abstract（参考訳）: 過去10年間で、ソーシャルメディアプラットフォームによるオンラインコンテンツの指数関数的な成長が見られた。この規模のデータ生成には、不可解な攻撃的コンテンツの注意が伴う。攻撃的コンテンツを特定する複雑さは、複数のモダリティ(画像、言語など)、コード混合言語の使用などによって悪化する。さらに,攻撃コンテンツを注意深くサンプリングして注釈付けしても,攻撃コンテンツと非攻撃コンテンツの間には,常に重大な階級的不均衡が存在する。本稿では,新しいコードミキシング・インデックス(CMI)に基づく焦点損失を導入し,(1)言語におけるコードミキシング,(2)ドラビダ語攻撃検出のためのクラス不均衡問題を回避した。また,従来のドット製品に基づく分類器をコサインベースの分類器に置き換えることで性能が向上する。さらに,低リソース言語を効果的に扱うために,言語間で学習した特性の伝達を支援する多言語モデルを用いる。私たちのモデルは混合スクリプトのインスタンスも扱っています(例えば、ラテン語とドラビダ語 - タミル文字の使用)。我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。

関連論文リスト

Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文参考訳（メタデータ） (2024-11-06T16:20:37Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Mitigating Data Imbalance and Representation Degeneration in Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。 Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文参考訳（メタデータ） (2023-05-22T07:31:08Z)
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文参考訳（メタデータ） (2022-02-22T20:55:31Z)
COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文参考訳（メタデータ） (2022-01-16T11:47:23Z)
Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文参考訳（メタデータ） (2021-12-03T04:26:49Z)
Offensive Language Identification in Low-resourced Code-mixed Dravidian languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文参考訳（メタデータ） (2021-08-27T08:43:08Z)
Hate-Alert@DravidianLangTech-EACL2021: Ensembling strategies for Transformer-based Offensive language Detection [5.139400587753555]
ソーシャルメディアは、しばしば異なる種類の攻撃的コンテンツの繁殖地として機能する。我々は、異なるトランスモデルを徹底的に探索し、異なるモデルを統合する遺伝的アルゴリズムも提供する。タミル語では第1位,カンナダ語では第2位,マラヤラム語のサブタスクでは第1位を確保した。
論文参考訳（メタデータ） (2021-02-19T18:35:38Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。これはメッセージレベルの分類タスクです。埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文参考訳（メタデータ） (2020-10-17T10:11:41Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。