論文の概要: CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets
- arxiv url: http://arxiv.org/abs/2010.08756v1
- Date: Sat, 17 Oct 2020 10:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 11:47:07.746972
- Title: CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets
- Title(参考訳): CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language from ManglishTweets (英語)
- Authors: Sara Renjit, Sumam Mary Idicula
- Abstract要約: 本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the popularity of social media, communications through blogs, Facebook,
Twitter, and other plat-forms have increased. Initially, English was the only
medium of communication. Fortunately, now we can communicate in any language.
It has led to people using English and their own native or mother tongue
language in a mixed form. Sometimes, comments in other languages have English
transliterated format or other cases; people use the intended language scripts.
Identifying sentiments and offensive content from such code mixed tweets is a
necessary task in these times. We present a working model submitted for Task2
of the sub-track HASOC Offensive Language Identification- DravidianCodeMix in
Forum for Information Retrieval Evaluation, 2020. It is a message level
classification task. An embedding model-based classifier identifies offensive
and not offensive comments in our approach. We applied this method in the
Manglish dataset provided along with the sub-track.
- Abstract(参考訳): ソーシャルメディアの人気が高まり、ブログ、Facebook、Twitter、その他のプラモデルによるコミュニケーションが増加している。
当初は英語が唯一のコミュニケーション手段であった。
幸いなことに、私たちはどんな言語でもコミュニケーションできます。
英語と母国語または母国語を混合した形で使用するようになった。
他の言語のコメントには、英語で翻訳されたフォーマットやその他のケースがある。
このようなコードから感情や不快なコンテンツを特定することは、当時必要なタスクである。
我々は,2020年情報検索評価フォーラムにおいて,hasoc攻撃言語識別タスク2に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は攻撃的であり,攻撃的ではない。
この手法をサブトラックとともにmanglishデータセットに適用した。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss [1.7267596343997798]
攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
論文 参考訳(メタデータ) (2021-11-12T19:50:24Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on
Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。
このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:25:47Z) - "Hinglish" Language -- Modeling a Messy Code-Mixed Language [0.0]
本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
我々は、同義語置換、ランダム挿入、ランダムスワップ、ランダム削除などの簡単なテキスト拡張技術を備えた双方向シーケンスモデルを利用する。
論文 参考訳(メタデータ) (2019-12-30T23:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。